站点日志论文-张艳华

站点日志论文-张艳华

导读:本文包含了站点日志论文开题报告文献综述及选题提纲参考文献,主要关键词:Web日志挖掘,数据采集,数据预处理,数据清理

站点日志论文文献综述

张艳华[1](2012)在《面向多站点Web日志挖掘中的数据采集与预处理技术研究》一文中研究指出随着互联网和信息技术的快速发展,特别是Web的全球普及,使得Web上的用户数目和信息量都在不断地增加。这样就产生了两方面的主要问题:一方面是如何让站点提供者通过分析用户的浏览行为,发现用户的浏览模式和兴趣爱好,并为其提供个性化推荐,以获得更多的用户青睐和商业价值。另一方面是如何让用户能够及时地从海量的信息中获取到感兴趣的、有价值的信息,从而降低信息过载带来的迷航问题,提高信息检索效率。通过将数据挖掘技术应用于Web日志挖掘,并根据不同挖掘应用的需求和Web日志的特性,对传统方法进行扩展和改进,可以解决这些问题。要进行Web日志挖掘首先要采集相关的日志数据并对其进行预处理。传统的Web日志挖掘的数据采集一般在服务器端、客户端、应用服务器端和代理服务器端进行。不同的数据采集方法不仅在数据源位置方面不同,而且在可用数据的种类、被收集的数据段和其实现方面都不尽相同。数据预处理主要是通过数据清理和用户识别等操作,将能够精确反映用户浏览行为的数据提取出来并转换为挖掘算法可识别的格式,其结果直接关系到后续挖掘的质量。数据采集和预处理这两方面的工作占据了Web日志挖掘的很大一部分,是Web日志挖掘的基础和关键,也是Web日志挖掘研究的重难点。通常的数据采集和预处理都是面向单站点环境进行,而本文则是面向多站点的Web日志挖掘,因此已有的数据采集方法就不再适合。为了能够采集到多站点下的用户浏览行为数据,本文提出了一种通过捕获HTTP协议数据包的网络嗅探采集方式。同时,面向多站点环境下采集到的数据由于具有海量、多样、异构、动态变化等特性,数据预处理工作也就不同于以往,特别是增加了数据清理的难度。针对这一问题,通过分析HTTP请求的特点本文提出了一种基于页面引用和时间关系的数据清理方法。最后,在局域网平台上通过多次实验来考察本文提出的网络嗅探数据采集方法和基于引用和时间关系的数据清理方法的有效性。采用精确率、召回率和F度量值等指标分析实验数据。结果表明本文提出的面向多站点下的数据采集和预处理方法是有效可行的。(本文来源于《重庆大学》期刊2012-04-01)

钱素娟[2](2011)在《Web日志挖掘在优化教育站点的应用》一文中研究指出随着网络的蓬勃发展,各种基于互联网的Web站点也越来越多,许多网站每同都有较大的访问量。为了更好的方便用户,进一步提高网站承载能力和应用支持,,就需要对网站进行优化和更新,对网站的组织结构或版面及网页间链接等进行完善修改。故如何合理安排网站组织结构,进行网站优化成了一个倍受大家关注的问题。Web服务器记录了用户的访问同志,即客户端每一次请求的细节,如:请求资源,请求时间,客户IP,服务器IP,发送字节数,接收字节数等,因此可以通过对Web SERVER日志文件的处理和分析来了解站点的访问情况,以期发现用户浏览页面间的关联规则,并分析其规则将有用的规则应用到网站建设,教学资源优化中。本课题将WEB日志挖掘与网站优化相结合,并应用于教育站点优化。以郑州经贸校园网站为例,对其服务器端日志进行挖掘,结合学院实际情况,通过SQL Server2000内置工具DTS对服务器端日志文件进行预处理,经过比较几种日志挖掘算法的优劣,选用关联规则中的经典算法Apriori算法对其进行挖掘,以期发现所用户浏览页面间的关联规则,根据设定最小支持度和置信度抽取出有用规则,并将抽取的关联规则应用到网站优化中,最后提出校园网站的具体优化方案。本文主要做了以下几个方面的分析和研究。(1)依据Apriori关联规则挖掘算法对数据的要求,对教育站点服务器端的日志文件进行预处理。(2)选用Apriori关联规则挖掘算法,对经过数据预处理后的日志文件进行挖掘分析,得到频繁项集及其支持数,产生关联规则,以期发现所隐藏的用户浏览行为模式和频繁访问会话模式。(3)对关联规则进行分析,找出Web页面之间的关联,了解用户感兴趣的页面结构和页面内容。找出在网站结构和内容中存在的问题,并且提出了解决方案。从而将有用的模式反馈应用到网站优化中。(4)最后给出网站的具体优化方案。从而改善教育站点的性能、组织结构及网页间链接。(本文来源于《郑州大学》期刊2011-05-01)

徐红兵[3](2009)在《一种基于Web日志的自适应站点优化方法》一文中研究指出从理论上分析了一种自适应网站性能优化算法。该算法以Web站点的URL为行、以用户的UserID为列,建立URL_UserID关联矩阵,对行向量进行分析获得频繁闭相关页面集,对频繁闭相关页面集进一步处理发现频繁访问路径。Web站点可根据频繁路径自动改进链接结构,提高Web站点对所有用户的整体服务性能。(本文来源于《信息与电脑(理论版)》期刊2009年10期)

付国瑜,唐洪英[4](2009)在《基于Web日志的自适应站点优化方法研究》一文中研究指出从理论上分析了一种自适应网站性能优化算法。该算法以Web站点的URL为行、以用户的UserID为列,建立URL_UserID关联矩阵,对行向量进行分析获得频繁闭相关页面集,对频繁闭相关页面集进一步处理发现频繁访问路径。Web站点可根据频繁路径自动改进链接结构,提高Web站点对所有用户的整体服务性能。(本文来源于《微计算机信息》期刊2009年15期)

麦权帮,傅仁毅[5](2009)在《基于Web日志的自适应站点优化研究与应用》一文中研究指出论文主要从理论上分析了一种自适应网站性能优化算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL_UserID关联矩阵,元素值为用户的访问次数;接着对行向量进行分析获得频繁闭相关页面集;最后,对频繁闭相关页面集进一步处理发现频繁访问路径。Web站点可根据频繁路径自动改进链接结构,提高Web站点对所有用户的整体服务性能,提高客户访问的效率。(本文来源于《电脑知识与技术》期刊2009年14期)

刘兴东[6](2009)在《Web站点安全日志分析系统的分析与设计》一文中研究指出互联网快速的发展,使得国内网站快速成长,诞生了大批大型的网站,如新浪,搜狐,网易等。这些网站中,中小型的WEB站点更是不计其数。在这些网站的建构过程中,网站设计者一般只关注对外部的用户访问速度,对于用户体验,则关注较少。为了改善用户体验,网站的相关技术人员需要在维护大量的线上服务器的同时,对站点是否能被用户正常访问实施监控。通过这种监控,了解服务器运行的状况,网站维护人员通过对日志的分析,明确网站运行的问题所在,同时将此问题及时解决,使客户端的网站访问恢复正常。本论文针对WEB站点的日志挖掘来判断用户恶意的攻击及搜索引擎抓取过于频繁等问题,以WEB站点产生的日志为主要研究对象,对日志进行了挖掘过滤分析,在对HTTP协议相关内容了解后,对日志分析结果作了分析研究。并设计日志分析系统的解决方案。包括核心分析系统,结果展示系统,服务器信息维护系统。该系统能及时查询到上一时间段分析日志的服务器所收到的请求类型、状态、状态数量及请求数等,通过上一时间段服务器运行数据,来判断程序逻辑严密性,用户体验好坏,是否有用户恶意请求,搜索引擎抓取是否过于频繁等问题。论文主要工作包括以下几点。(1)挖掘Web用户访问日志,并做分析统计,将分析结果保存于数据库。因为对于访问量大的站点来说,每个小时的日志文件会比较大,如果需要寻找问题,直接打开日志文件是比较耗费内存和相关资源的。因此将日志过滤并统计出结果是维护人员快速的找到问题所在。对大流量站点来说,该系统的重要性和应用性体现在,能及早找到问题,将损失降到最低。(2)设计出查询高效、结构优化的分析结果数据库系统,使得统计数据得以有效管理和快速查询的实现,从而使问题得以快速解决,这对于维护者解决问题很关键。在数据库设计上会考虑服务器端常会出现的问题。Web服务器返回状态码为500和503的情况是客户端经常遇到的,time-taken即所花时间也是一个重要的参数。所用时间表示服务器端响应花费的时间,它是服务器端程序效率的一个重要标志。花费时间越长,服务器端效率越低。在客户端用户感觉到站点速度很慢,用户体验差。(本文来源于《北京邮电大学》期刊2009-01-01)

马相华[7](2008)在《基于访问日志的自适应站点的研究》一文中研究指出目前Web数据挖掘的研究有很大一部分集中在Web日志挖掘上。Web站点的日志记录了Web站点浏览者的所有动作,通过对这些记录进行挖掘,找出浏览者的喜好,对Web站点的优化有指导意义。现有的Web站点都是以“网页”为中心,即用户必须根据所访问站点的拓扑结构来寻找自己所需要的信息,对于用户来说那些仅起到“导航”作用的页面并没有什么用处。为了过滤掉这些“导航”页面,提高网络服务质量,为用户提供个性化服务,人们提出了很多基于数据挖掘的Web应用,如预取技术、个性化推荐服务、自适应站点服务等。自适应站点的理论能够减少网络信息泛滥和服务缺乏个性化的问题,是网络服务更高层次的发展目标。本文研究的目的是利用Web日志挖掘理论实现网站的自适应。论文首先介绍了国内外Web日志挖掘领域的发展现状,系统地阐述了Web挖掘、Web日志挖掘的特点及过程,其次对自适应网站的特点以及设计原理与过程作了深入的研究。论文讨论了自适应网站系统构建过程中的主要步骤和关键算法,重点对Web日志数据预处理和Web日志数据挖掘做了深入研究。论文依据自适应网站的构建理论提出了一种自适应站点的设计模型,并对其各个模块进行了详细分析,同时依据海事大学服务器日志数据对文中提到的算法作了验证,证明了文中所设计的算法是正确合理的。最后运用该模型构建了一个简易的自适应网站系统,通过该系统的顺利运行验证了本文提出的自适应网站设计模型的可行性。(本文来源于《大连海事大学》期刊2008-02-01)

吕亚兵[8](2006)在《WEB站点日志数据挖掘的研究与实现》一文中研究指出Web站点日志的数据挖掘是对用户与Web服务器的交互产生的日志数据使用数据挖掘技术发现隐含的规律性知识,得到用户的访问模式和用户的兴趣,从而为用户的个性化服务提供依据,同时将一些可疑的访问信息及时反馈给网站管理员以加强网站的安全性。本系统以Web日志和Web拓扑结构作为数据源,从数据收集、数据预处理和数据挖掘分析叁个阶段阐述系统的整体结构和实现,系统采用图论来表现关联规则挖掘的优化算法并给出部分JAVA代码实现。引入关联规则挖掘,对关联规则基本概念作了介绍,提出了关联规则的分类方法。对挖掘算法的介绍,对传统相似度聚类分析进行了研究并做出了改进。基于安全的考虑提出了正常浏览模式、异常浏览模式的概念并利用改进的相似度进行挖掘。对传统的Apriori算法进行改进,提出了用图论的方法即大图法来挖掘用户偏好路径,发现用户的访问兴趣。提出了基于Web日志挖掘技术的站点日志挖掘体系结构,为进一步实现Web站点智能化服务打下基础。 本论文的结构如下: 第1章:对目前的数据挖掘技术进行了分析,着重指出了Web挖掘的国内外研究现状和热点,阐述了最新的数据挖掘分类,并提出了研究站点日志挖掘的主要内容和意义。第2章:详细讲述Web数据挖掘,阐述当前Web数据挖掘的最新分类和由于数据的结构性不同所面临的困难,最后重点讲述日志和日志挖掘实现流程。第3章:讲述了Web日志挖掘中的信息收集。不同信息源分析和信息收集的过程。第4章:从数据预处理的目的、过程、程序实现以及相关数据库建立等方面分析了日志挖掘的数据预处理过程,重点阐述了数据净化、用户识别、路径补充和事务识别。第5章:讨论如何进行日志挖掘和相应的算法分析。包括采用会话相似度分析将日志记录分为正常访问模式和异常访问记录,引入大图法采用关联规则分析用户的偏好路径。第6章:给出了日志挖掘系统的实验体系和部分实验结果。第7章:总结了本课题研究成果主要有四点,指出了需要进一步改进的方面。(本文来源于《武汉理工大学》期刊2006-03-01)

夏敏捷,张慧档[9](2006)在《基于Web日志挖掘的个性化服务站点》一文中研究指出介绍个性化站点的概念,并对Web日志挖掘系统体系结构进行分析。其后将关联规则挖掘技术应用到日志事务会话中,在对日志数据的特性分析的基础上提出类Apriori挖掘算法。对类Apriori挖掘算法得到的频繁项集如何有效提取关联规则提出了最有效的方法。在实际应用中探讨了如何从多个匹配的关联规则中选择合适的匹配规则。(本文来源于《微计算机应用》期刊2006年01期)

王咏,申瑞民[10](2004)在《通过挖掘Web日志改进站点结构》一文中研究指出在一些商业站点中Web页面的结构有时与用户的浏览习惯不相一致,即用户在某个位置去寻找某个特定的页面,而这个页面却实际在另一个位置。该文提出一种算法找出站点中那些实际位置与用户期望位置不相一致的页面。算法的主要思想是如果访问者没有在特定的位置找到所需的页面就会回退,把这个产生回退的位置作为访问者希望相应的页面内容出现的可能的候选期望位置。然后站点管理者可以改进站点的结构,在用户的期望位置增加相应的页面的连接,这样可以使用户能够较为方便地找到所期望的页面。(本文来源于《计算机工程》期刊2004年12期)

站点日志论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着网络的蓬勃发展,各种基于互联网的Web站点也越来越多,许多网站每同都有较大的访问量。为了更好的方便用户,进一步提高网站承载能力和应用支持,,就需要对网站进行优化和更新,对网站的组织结构或版面及网页间链接等进行完善修改。故如何合理安排网站组织结构,进行网站优化成了一个倍受大家关注的问题。Web服务器记录了用户的访问同志,即客户端每一次请求的细节,如:请求资源,请求时间,客户IP,服务器IP,发送字节数,接收字节数等,因此可以通过对Web SERVER日志文件的处理和分析来了解站点的访问情况,以期发现用户浏览页面间的关联规则,并分析其规则将有用的规则应用到网站建设,教学资源优化中。本课题将WEB日志挖掘与网站优化相结合,并应用于教育站点优化。以郑州经贸校园网站为例,对其服务器端日志进行挖掘,结合学院实际情况,通过SQL Server2000内置工具DTS对服务器端日志文件进行预处理,经过比较几种日志挖掘算法的优劣,选用关联规则中的经典算法Apriori算法对其进行挖掘,以期发现所用户浏览页面间的关联规则,根据设定最小支持度和置信度抽取出有用规则,并将抽取的关联规则应用到网站优化中,最后提出校园网站的具体优化方案。本文主要做了以下几个方面的分析和研究。(1)依据Apriori关联规则挖掘算法对数据的要求,对教育站点服务器端的日志文件进行预处理。(2)选用Apriori关联规则挖掘算法,对经过数据预处理后的日志文件进行挖掘分析,得到频繁项集及其支持数,产生关联规则,以期发现所隐藏的用户浏览行为模式和频繁访问会话模式。(3)对关联规则进行分析,找出Web页面之间的关联,了解用户感兴趣的页面结构和页面内容。找出在网站结构和内容中存在的问题,并且提出了解决方案。从而将有用的模式反馈应用到网站优化中。(4)最后给出网站的具体优化方案。从而改善教育站点的性能、组织结构及网页间链接。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

站点日志论文参考文献

[1].张艳华.面向多站点Web日志挖掘中的数据采集与预处理技术研究[D].重庆大学.2012

[2].钱素娟.Web日志挖掘在优化教育站点的应用[D].郑州大学.2011

[3].徐红兵.一种基于Web日志的自适应站点优化方法[J].信息与电脑(理论版).2009

[4].付国瑜,唐洪英.基于Web日志的自适应站点优化方法研究[J].微计算机信息.2009

[5].麦权帮,傅仁毅.基于Web日志的自适应站点优化研究与应用[J].电脑知识与技术.2009

[6].刘兴东.Web站点安全日志分析系统的分析与设计[D].北京邮电大学.2009

[7].马相华.基于访问日志的自适应站点的研究[D].大连海事大学.2008

[8].吕亚兵.WEB站点日志数据挖掘的研究与实现[D].武汉理工大学.2006

[9].夏敏捷,张慧档.基于Web日志挖掘的个性化服务站点[J].微计算机应用.2006

[10].王咏,申瑞民.通过挖掘Web日志改进站点结构[J].计算机工程.2004

标签:;  ;  ;  ;  

站点日志论文-张艳华
下载Doc文档

猜你喜欢