毕业论文

打赏
当前位置: 毕业论文 > 研究现状 >

日志挖掘国内外研究现状

时间:2019-09-24 21:09来源:毕业论文
现在对于日志挖掘的研究中,主要是从性能和算法中做深入研究,从算法角度,主要是是使用一些聚类算法,如北京邮电大学付伟使用K-Means聚类算法进行日志挖掘;该文通过研究了很多

现在对于日志挖掘的研究中,主要是从性能和算法中做深入研究,从算法角度,主要是是使用一些聚类算法,如北京邮电大学付伟使用K-Means聚类算法进行日志挖掘;该文通过研究了很多开源的日志挖掘工具,从功能的角度上,开发出类似于alter wind log日志挖掘系统进行挖掘web日志中的有用信息[5]。39468
目前,web日志挖掘工具大部分功能都比较简单,主要挖掘用户的在线时间,用户的访问路径,有些工具因为追求精确性,所以处理的速度非常慢,同样的,本文认为,日志挖掘不仅仅要追求精确度,还要追求处理速度,现在是一个追求快速响应的时代,人们对于互联网响应的容忍时间低至毫秒度,所以本文在日志挖掘的速度上面进行追求,选择分布式框架hadoop,并基于hadoop开发日志挖掘算法[6]。论文网
如今,除了Oracle自带有一个日志挖掘工具包-logminer,还有以下几个日志挖掘工具,本文仅列出各个工具名称,并不对其详细介绍。
(1)M5 analyzer ,主要是对网页的树状进行分析,能够分析出访问路径的特点
(2)deep log analyzer ,能够挖掘的内容很多,但是过于详细导致速度过慢
(3)alter wind log,主要挖掘用户的ip内容等
(4)Absolute Log Analyzer Pro,可以支持web集群的日志挖掘
(5)123 log ,主要挖掘用户的在线时间等信息,界面比较简单
(6)happy Log ,对网页进行树状的列表,并且进行统计
(7)website analyser,操作界面比较简单,挖掘的功能较少
(8)Nihuo Web Log Analyzer,主要挖掘ip,用户信息等功能
(9)SurfStats Version 8.0.0.0,日志挖掘后的报告支持多种格式
源¥自%六:维;论-文'网=www.lwfree.cn

(10)weblogstorming,挖掘用户的访问路径
(11)web log explorer,统计访问的各种信息,并且报表的展示功能做的比较好。
(12)web log expert,统计访问的各种信息
从上面各种工具的特点可以看出来,现在对于日志挖掘的工具原理都比较简单,而且功能也比较强大,基本可以满足现在web日志分析的要求,但是,现在web日志的数据量增长速度之快,大网站动则上亿访问量,日志大小多达几十T,而上诉这些挖掘工具,基本都是基于单机开发的,即使是存储这些日志已经是很困难了,更谈不上读入内存,进行处理。
这是因为以上种种的原因,对于大数据级的日志处理,科学家开发出了相应的平台,如hadoop、spark、storm、fourinone等,其中尤以Hadoop 使用最为广泛。第一,从成本的角度上考虑,hadoop是apache旗下的顶级开源项目,面向用户完全免费,而且,hadoop对于硬件的要求并不高,只要能够运行linux系统的设备都可以安装hadoop框架,对于公司的使用成本大大降低。第二,hadoop使用非常灵活,不仅能够处理结构化数据,对于非结构化数据支持也非常好,并且能够很容易的处理GB、TB以上的数据,以前只能使用单机处理相同数据需要花费几小时或者几天,现在使用hadoop只需要几小时或者几十分钟即可完成,而且开发者可以根据自己的需求编写mapreduce程序,并且设置启用更多的map节点和reduce节点,以达到更快速处理数据的要求,通过调用多台或几十台机器的cpu和内存进行计算,可以简单的说,通过则加节点数量,可以处理任意大的数据。并行计算,并且使用方便,成本低廉,这也就是hadoop的最大优点。 日志挖掘国内外研究现状:http://www.lwfree.cn/yanjiu/20190924/39774.html
------分隔线----------------------------
推荐内容