导读:本文包含了使用日志挖掘论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:日志,数据,页面,用户,矩阵,代理服务器,序列。
使用日志挖掘论文文献综述
翁锦琳[1](2014)在《基于Web使用挖掘的网站日志分析系统的研究与实现》一文中研究指出随着Internet的迅速发展,Web网站逐渐成为了存储、发布、获取、交流信息的最重要的载体。然而,随着Web网站数据的急剧增加,人们在检索信息时遇到了极大的困难。要解决这个问题,除了依靠搜索引擎外,还应该从自身网站的设计做起。也就是说,在网站设计时就应该从用户出发来设计和优化自己的站点,这就要求网站设计者通过分析Web数据来获得有用的信息,从而为网站设计提供帮助。Web日志是这些Web数据的一部分,也是较为完整与富于结构化的数据。通过对Web日志的分析,可以挖掘出网站的各个页面内容之间的相关性,分析出各类用户的不同喜好及访问意图,从而对网站的结构及内容提出改进意见,使站点的整体性能得到提高。本文查阅了国内外大量关于Web使用挖掘的相关文献,在这基础上对Web使用挖掘相关算法进行分析,并对部分算法进行改进,通过实验来验证改进效果。设计了一个基于Web使用挖掘的网站日志分析系统,使算法得以实现,并将该系统应用于具体网站中。本文主要包括以下内容:(1)本文研究了Web使用挖掘数据预处理过程,包括页面识别、用户识别、会话识别、事务数据库生成等等,对现有算法进行了分析并选择合适的算法,提出了基于“页面内容特性”的数据预处理算法,该算法更加强调页面的语义内容,使得后面的分析结果更有价值。(2)本文研究了关联分析与聚类分析。对经典的Apriori关联挖掘算法进行了分析,提出了一种改进的Apriori算法,提高了算法的效率,通过各种数据量下的对比实验证明该算法的有效性;分析了本文所要做的聚类分析工作,提出了改进的“用户-页面特性访问矩阵”,然后使用经典的k-means算法进行聚类分析。(3)本文介绍了基于Web使用挖掘的网站日志分析系统的实现过程,给出了本系统的概要设计与详细设计,包括系统主要模块的功能,数据库设计,数据流图,以及各个模块所使用的算法及主要类的关键源代码。(4)将本系统应用于一个具体的网站上,通过对该网站的日志进行挖掘与分析,得出了实验结果,并对实验结果进行分析,对该网站的结构与内容提出改进意见,从而证明了系统的有效性。(5)最后总结了本文的研究成果与不足之处,并提出下一步要努力的方向。(本文来源于《福州大学》期刊2014-03-01)
周志杰[2](2010)在《基于企业代理日志的Web使用挖掘研究》一文中研究指出随着Internet的飞速发展,互联网毫无疑问已经成为了人们获取与发布信息的主要途径之一。Web使用挖掘(Web Usage Mining)作为Web挖掘的分支之一,能够从服务器、浏览器端的日志记录和用户的个人信息中自动发现隐藏的模式信息,了解系统的访问模式及用户的行为模式,为信息的合理布局、用户的个性化推荐提供有力的依据。近年来,Web使用挖掘受到了越来越多的关注,其成果在电子商务、站点辅助设计、个性化服务等方面有着许多成功的应用。然而,目前的Web使用挖掘研究主要以Web服务器的访问日志为数据源,其以企业代理日志为数据源的研究则很少。企业代理日志是指企业用户在通过内网代理访问外网时产生的日志记录。对企业代理日志的挖掘可以帮助我们优化代理缓存策略,分析、评估代理性能,分析用户浏览行为,提供个性化服务等,为企业的资源规划、上网规范、提高访问效率等提供帮助。本文以企业代理日志为数据源开展研究,对比分析了企业代理日志与服务器日志的特点。在此基础上,首先提出了增进式的数据清洗算法,使得在站点拓扑不可知的情况下实现较好的数据过滤。然后提出了基于浏览树的预处理算法。在用户浏览模式挖掘方面,本文在对比分析多种算法的基础上,提出了基于URL层级相似度的动态聚类挖掘算法——UHMA,它能很好地适应企业代理日志的特点。在用户浏览预测方面,本文使用基于协作过滤的预测推荐算法,且结合RSS订阅,为用户提供实时的个性化推荐。本文设计与实现的基于企业代理日志的Web使用挖掘模型——EPWUM,分为两个部分:离线构件和在线构件。离线构件负责从代理日志中分析用户的浏览模式,在线构件结合用户浏览模式进行预测推荐。实验表明,该模型能克服企业代理日志挖掘中的特有难点,成功地将Web使用挖掘应用于企业代理日志。(本文来源于《华南理工大学》期刊2010-06-29)
孙金华,谢彦麒[3](2009)在《Web使用挖掘日志预处理算法设计》一文中研究指出数据预处理是整个Web使用挖掘过程的基础和实施有效挖掘算法的前提,在Web使用挖掘中起着重要的作用。论述数据预处理在Web使用挖掘中的重要性,详细分析Web使用挖掘数据预处理过程,在数据预处理的每个阶段给出一些规则并针对这些规则设计相应的预处理算法。(本文来源于《现代计算机(专业版)》期刊2009年08期)
陈玉哲,王艳君,赵明华[4](2009)在《基于Web日志与定制数据采集相结合的Web使用记录挖掘研究》一文中研究指出本文提出了基于Web日志与定制数据采集相结合的Web使用记录挖掘新方案,给出了系统模型,该方案增强了系统的适应性、灵活性和准确性。(本文来源于《福建电脑》期刊2009年08期)
金述强[5](2009)在《基于电子商务日志的Web使用挖掘研究》一文中研究指出随着Internet的日益普及和电子商务的蓬勃发展,基于电子商务的业务也面临着越来越激烈的竞争。由于电子商务站点可为数据挖掘提供极为丰富的数据源,因而如何运用数据挖掘技术对Web服务器上的日志数据和交易数据进行挖掘,从中抽取感兴趣的模式,以便更好地理解客户的访问行为,或改进站点结构和为客户提供更多的个性化推荐服务,已成为众多商家所关注焦点。因此,开展本研究课题有一定的应用价值和意义。本文首先概述了Web使用挖掘。介绍了日志挖掘技术中两大关键技术一序列模式挖掘和聚类分析,并分析了算法的优缺点,为后面的应用奠定理论基础。接着,详细讨论了Web日志挖掘的数据预处理过程,包括数据净化,用户识别,会话识别,Frame过滤,路径补充等。然后,对传统的矩阵聚类算法进行优化,改进为权值矩阵聚类算法。该算法对用户浏览时间和点击次数两个数据的离散化,来得到加权的URL-UserID访问矩阵,应用该算法分别对客户和页面的聚类分析,对客户的聚类来发现相似的客户群体,挖掘潜在客户,对页面聚类来将内容相关的页面归类;接下来,通过对聚类分析后的每一类用户访问日志分析,发现每一类用户的MFP事务数据库,再利用GSP算法找出每一类用户的频繁访问路径。最后把聚类和序列模式挖掘结果应用到电子商务推荐系统中,并给出一个个性化推荐系统PRS的原型。实验表明改进的权值矩阵聚类算法具有较高准确性和良好扩展性。将挖掘结果应用于个性化推荐系统的思想是有效的、可行的。(本文来源于《中南大学》期刊2009-06-30)
庞敏[6](2009)在《基于Web日志的网络使用挖掘算法研究》一文中研究指出随着Internet的快速发展和广泛应用,如何合理地规划网络建设,为网络使用者提供更加人性化的服务是目前的一个重要的研究方向。通过网络使用挖掘分析用户的浏览行为可以为页面改造和网站整体架构优化提供有益的指导。首先本文对Web使用挖掘进行了系统阐述,之后针对Web使用挖掘在数据预处理阶段的主要任务,提出了一种改进的面向时间和导航相结合的启发式会话构造算法。接着本文又以用户会话所包含的用户页面访问序列为数据源进行用户聚类,提出了一种非数值型数据相似度的计算方法,实现了基于用户访问序列的用户聚类。该聚类结果可以为网络站点结构优化以及个性化服务提供依据。最后本文建立了一个网络日志挖掘的实验系统,在数据预处理阶段实现了面向时间和导航的启发式会话构造方法;在模式发现阶段完成了基于用户访问序列的用户聚类。(本文来源于《中北大学》期刊2009-04-10)
李洋[7](2006)在《使用Webalizer进行网络流量日志分析》一文中研究指出在Linux下有许多日志及流量分析软件。Webalizer就是其中一个高效、简单易用、免费的Web服务器日志及流量分析程序。Internet上的很多站点都使用它进行Web服务器日志及流量分析。本文将以对Linux下的代理服务器Squid的流量日志作分析为(本文来源于《计算机世界》期刊2006-09-04)
易敏昕,张有仁,汪胜[8](2003)在《基于日志定制的Web使用数据挖掘预处理研究》一文中研究指出Web使用数据挖掘是为网站经营管理和结构调整提供决策支持的主要手段,其中的数据预处理工作关系到挖掘的质量。本文首先针对各类数据分别定义其数据模型;然后根据服务器托管网站的实际工作环境,针对现有预处理工具仅仅局限于固定的日志格式的不足,提出了定制日志的思想,并结合前面定义的数据模型,详细描述了一个预处理工具原型WUMPA。(本文来源于《华东理工大学学报》期刊2003年04期)
韩莉[9](2003)在《基于概念格的Web使用日志挖掘及其在个人化技术中的应用》一文中研究指出新信息、新产品、新服务每天都在不断被推上web,同时,用户的种类、数量和关注点也在增加。一方面,用户已经疲于以“大海捞针”的方式搜寻信息,另一方面web网上的服务商也在不断设法获取用户的兴趣爱好,以填补用户和网站之间的信息鸿沟。个人化技术就是基于这种需要产生的。 传统个人化技术(如CF技术、基于内容过滤技术)中存在着一些限制,如处理大数据量的能力差、依赖于用户的登记信息,产生的用户使用视图是静态的、不能获取web对象之间丰富的语义联系等。为解决传统技术中出现的这些问题,一些研究提出将web使用日志的挖掘应用到个人化技术中。Web使用记录的挖掘虽然有诸多的优点,却不能适应用户的使用信息较难获取及站点内容经常变化的情况。为了使个人化系统更有效,我们需要将web使用记录的挖掘与web内容挖掘集成到同一个结构中,由推荐引擎以统一的方式使用他们。 本文提出了一个基于关联规则挖掘的个人化技术,它使用概念格(concept lattice)作为存储频繁页面集的数据结构。我们将讨论如何利用这个结构实时地为当前用户产生推荐集,以及这个结构与web语义内容相结合的优势。 将概念格作为存储频繁页面集的数据结构,一方面是由于概念格关于两个集合之间关系的描述有助于发现页面集合基于用户使用而产生的语义关联。另一方面,概念格与当前流行的web本体语言只有同构性,可以方便地将站点的内容信息与用户的使用信息结合到同一个挖掘结构中。(本文来源于《安徽大学》期刊2003-05-12)
使用日志挖掘论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着Internet的飞速发展,互联网毫无疑问已经成为了人们获取与发布信息的主要途径之一。Web使用挖掘(Web Usage Mining)作为Web挖掘的分支之一,能够从服务器、浏览器端的日志记录和用户的个人信息中自动发现隐藏的模式信息,了解系统的访问模式及用户的行为模式,为信息的合理布局、用户的个性化推荐提供有力的依据。近年来,Web使用挖掘受到了越来越多的关注,其成果在电子商务、站点辅助设计、个性化服务等方面有着许多成功的应用。然而,目前的Web使用挖掘研究主要以Web服务器的访问日志为数据源,其以企业代理日志为数据源的研究则很少。企业代理日志是指企业用户在通过内网代理访问外网时产生的日志记录。对企业代理日志的挖掘可以帮助我们优化代理缓存策略,分析、评估代理性能,分析用户浏览行为,提供个性化服务等,为企业的资源规划、上网规范、提高访问效率等提供帮助。本文以企业代理日志为数据源开展研究,对比分析了企业代理日志与服务器日志的特点。在此基础上,首先提出了增进式的数据清洗算法,使得在站点拓扑不可知的情况下实现较好的数据过滤。然后提出了基于浏览树的预处理算法。在用户浏览模式挖掘方面,本文在对比分析多种算法的基础上,提出了基于URL层级相似度的动态聚类挖掘算法——UHMA,它能很好地适应企业代理日志的特点。在用户浏览预测方面,本文使用基于协作过滤的预测推荐算法,且结合RSS订阅,为用户提供实时的个性化推荐。本文设计与实现的基于企业代理日志的Web使用挖掘模型——EPWUM,分为两个部分:离线构件和在线构件。离线构件负责从代理日志中分析用户的浏览模式,在线构件结合用户浏览模式进行预测推荐。实验表明,该模型能克服企业代理日志挖掘中的特有难点,成功地将Web使用挖掘应用于企业代理日志。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
使用日志挖掘论文参考文献
[1].翁锦琳.基于Web使用挖掘的网站日志分析系统的研究与实现[D].福州大学.2014
[2].周志杰.基于企业代理日志的Web使用挖掘研究[D].华南理工大学.2010
[3].孙金华,谢彦麒.Web使用挖掘日志预处理算法设计[J].现代计算机(专业版).2009
[4].陈玉哲,王艳君,赵明华.基于Web日志与定制数据采集相结合的Web使用记录挖掘研究[J].福建电脑.2009
[5].金述强.基于电子商务日志的Web使用挖掘研究[D].中南大学.2009
[6].庞敏.基于Web日志的网络使用挖掘算法研究[D].中北大学.2009
[7].李洋.使用Webalizer进行网络流量日志分析[N].计算机世界.2006
[8].易敏昕,张有仁,汪胜.基于日志定制的Web使用数据挖掘预处理研究[J].华东理工大学学报.2003
[9].韩莉.基于概念格的Web使用日志挖掘及其在个人化技术中的应用[D].安徽大学.2003