日志数据分析关乎企业风险管控

fangcloud 438 2022-06-05

本文转载自网络公开信息

近日,一篇《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城》的自媒体文章,引起业界高度关注。文章直指“马蜂窝”数据造假,称马蜂窝从其他平台抄袭搬运的点评,占马蜂窝官网总点评数的85%。作为一家风头正盛的旅游网站,马蜂窝对此表示不服,把当事方(深圳市乎睿数据有限公司及自媒体文章作者丁子荃)告上了法庭。

真相到底是什么,局外人可能没办法准确判断。但是,从技术角度来看,这次“马蜂窝被捅”事件反应出几个值得争议的热点。

第一,对于“爬虫工具”的使用问题。 随着大数据的兴起,有越来越多的企业和个人意识到结构化、非结构化数据的重要性。如何采集及整理这些数据,进一步挖掘商业价值?于是,爬虫软件工具开始盛行。我们随便一搜,什么八爪鱼、集搜客、熊猫采集等等,一抓一大把。这些工具软件的卖点是简单、易用,即使是不懂代码的业务人员,也能使用。但是,这些软件是否能随便在市面上售卖?如果可以买卖,是不是要约束下对方的使用范围?深圳市乎睿数据有限公司,这次捅“马蜂窝”的工具,也是借助“机器人”来完成。

第二、随便爬对方的数据,是否构成侵权 。很多互联网公司创业,基本没有自己的数据,只好从其他平台,甚至是竞争对手的平台“爬数据”,这已成行业潜规则。这样的“潜规则”,是否合法?

第三、作为受害方,我们如何通过日志数据分析控制未知风险。 不管怎么说,“数据造假”给“马蜂窝”带来了大量的负面效果。多年积累起来的用户形象,毁于一旦。如果说,马蜂窝确有其实,那就需要从道德和法律层面综合考量。如果这次事件是有人故意找茬,我们要思考如何通过技术手段保护自己。爬虫、撞库、黑客攻击……作为互联网人,这些技术我们早已耳熟能详。但是,如果被别有用心的人利用,后果不堪想象。

什么是爬虫?爬虫本身就是网络机器人,是一种能够自动在Web上根据某种策略进行远程数据搜索与获取的程序,也被称为网络蜘蛛或网络爬虫。百度、谷歌等搜索引擎,都是借助这一技术进行信息搜集。但是,不友好的自动访问会带来许多问题,除了涉及商业机密,还会占据平台带宽,影响正常用户的访问。

所以,对于管理人员来说,有必要建立一个已知网络机器人的数据库。数据库字段包括网络机器人的标识agent和网络机器人所在的服务器IP地址,然后通过检测访问者的IP地址来进行识别。对于未知的网络机器人,虽然我们的监测能力有限,但是可以从日志中挖掘出每天Web端的访问情况,建立有效的风险模型,就有可能识别出可疑IP。如果日志记录中发现异常IP,完全可以通过技术手段屏蔽掉。Web日志包含的信息量虽然不多,但是从日志字段值中可以发现异常用户操作行为。

所以,基于大数据的日志数据分析变得越来越重要,它不只满足动态安全管理需要,也是运维人员进行风险管控的有力抓手。

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表亿方云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱daifeng@360.cn 处理。
上一篇:以太坊企业联盟发布了新的规范(以太坊 共识)
下一篇:IBM Modern架构,奠基企业数字智能未来(ibm spss statistics是什么软件)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~