基于仿生学的主题爬虫搜索策略及关键技术研究

基于仿生学的主题爬虫搜索策略及关键技术研究

论文摘要

主题爬虫(Focused Crawler)是主题搜索引擎的关键部件,目的是检索最大数量的与特定主题相关的网页。它会根据相关算法或者特定策略进行网页筛选,直到达到一定的下载数量、迭代次数或者主题相似度的精度阈值为止。比之通用爬虫,主题爬虫需要解决以下问题:主题定义、网页数据的分析、未知URL的搜索策略。对于主题定义、网页数据的分析已经比较准确和全面。而未知URL的搜索策略一直是主题爬虫研究领域的热点及难点,该领域的研究从最初的基于内容和链接到利用叙词表和本体,再到目前基于机器学习算法,主题爬虫的搜索精度和覆盖率都有了一定的提升。然而,当前主题爬虫的搜索策略研究依然存在着主题计算准确率较低,抓取网页的覆盖率不高,容易出现主题偏移,种子页面选取不合理等问题。为了解决以上问题,本文对主题爬虫搜索策略及相关技术进行了如下研究:1.本文设计了一个基于变异思想改进粒子群算法的主题爬虫模型。首先,对于每个主题基于点击率获取3种容易产生大规模聚集的网页群中的典型页面。然后,计算每个主题3种种子页面的权值,将权值作为粒子群爬虫的初始速度和方向值,使用本文提出的基于变异思想改进的粒子群算法抓取页面。其中,本文改进的算法将全局极值设置为完美但实际上并不存在的值,从而忽略了全局极值的影响并在算法陷入局部收敛时加入变异思想。最后通过对比实验并进行结果分析,对比于传统的爬虫方法,本文提出的主题爬虫模型可以获得更高的准确率,能够抓取高质量的网页。2.本文搭建了一种基于改进Louvain算法的种子页面选取框架。首先,基于搜索引擎获取一定数量的初始相关种子页面,将这些页面作为节点,使用本文改进Louvain算法对其进行社区划分。然后,计算初始划分社区的归一化互信息确定节点大小,通过删除多余节点构造出超级节点网络。最后,通过计算超级网络节点页面内容与主题的相似度得到超级网络节点页面权值,选取权值大于阈值的节点页面并去掉属于同一个社区的节点页面,得到种子页面集合。经过实验分析,证明本框架生成的种子页面能够有效提升主题爬虫的准确率和主题覆盖率。

论文目录

  • 摘要
  • abstract
  • 第1章 绪论
  •   1.1 研究背景
  •   1.2 研究现状
  •     1.2.1 搜索策略
  •     1.2.2 种子页面选择
  •     1.2.3 主题爬虫领域的主要问题
  •   1.3 论文研究内容及意义
  •   1.4 论文组织结构
  • 第2章 相关理论与技术
  •   2.1 仿生学算法
  •     2.1.1 粒子群算法
  •     2.1.2 遗传算法
  •   2.2 相似度计算
  •     2.2.1 欧几里德距离
  •     2.2.2 余弦相似度
  •   2.3 主题爬虫搜索策略
  •     2.3.1 VSM爬虫
  •     2.3.2 SSRM爬虫
  •   2.4 种子页面选取策略BFC
  •   2.5 非重叠社区发现算法
  •   2.6 本章小结
  • 第3章 基于变异思想改进粒子群算法的主题爬虫模型
  •   3.1 问题提出与解决办法
  •   3.2 模型框架
  •   3.3 种子页面的选取
  •   3.4 页面初始权值计算
  •     3.4.1 网页文本预处理
  •     3.4.2 关键词选择
  •     3.4.3 计算网页权重
  •     3.4.4 基于VR-PSO算法抓取页面
  •   3.5 实验与分析
  •     3.5.1 实验设计
  •     3.5.2 实验评价指标
  •     3.5.3 实验结果与分析
  •   3.6 本章小结
  • 第4章 基于改进Louvain算法的种子页面选取框架
  •   4.1 问题提出与解决办法
  •   4.2 模型框架
  •   4.3 加权的Louvain算法
  •   4.4 选取核心子团
  •   4.5 页面选择
  •   4.6 实验与分析
  •     4.6.1 实验环境
  •     4.6.2 实验设计
  •     4.6.3 实验结果与分析
  •   4.7 本章小结
  • 第5章 结论
  •   5.1 研究工作总结
  •   5.2 未来工作展望
  • 参考文献
  • 致谢
  • 攻读硕士学位期间从事的科研工作及取得的成果
  • 文章来源

    类型: 硕士论文

    作者: 蒋鹏

    导师: 徐光侠

    关键词: 变异思想,粒子群算法,主题爬虫,算法,种子选取

    来源: 重庆邮电大学

    年度: 2019

    分类: 基础科学,信息科技

    专业: 生物学,计算机软件及计算机应用

    单位: 重庆邮电大学

    分类号: Q811;TP391.3

    DOI: 10.27675/d.cnki.gcydx.2019.000150

    总页数: 66

    文件大小: 3072K

    下载量: 48

    相关论文文献

    • [1].创新战略对知识搜索策略的影响——基于市场环境的调节作用[J]. 情报杂志 2017(10)
    • [2].图搜索策略与深度优先搜索的实现[J]. 考试周刊 2009(01)
    • [3].网络多媒体主题搜索策略研究[J]. 中国科技资源导刊 2009(02)
    • [4].选择与转换:复杂任务情境下用户搜索策略的运用[J]. 情报理论与实践 2019(05)
    • [5].无标度网络的局部搜索策略[J]. 电子科技 2015(08)
    • [6].基于捕食搜索策略的粒子群算法在车辆路径问题中的应用[J]. 硅谷 2009(07)
    • [7].人工智能在主题搜索策略中的应用[J]. 重庆科技学院学报(自然科学版) 2009(04)
    • [8].基于图搜索策略的数独问题算法与实现[J]. 通化师范学院学报 2009(10)
    • [9].基于无标度网络的最大度二分度搜索策略[J]. 西北民族大学学报(自然科学版) 2014(02)
    • [10].人工智能图搜索策略的研究[J]. 长春理工大学学报(自然科学版) 2010(01)
    • [11].采用多局部搜索策略的无功优化多模因算法[J]. 中国电机工程学报 2008(34)
    • [12].外部知识搜索策略对企业创新绩效的影响机制研究[J]. 财经论丛 2016(04)
    • [13].一种改进的网络爬虫搜索策略[J]. 中国科技信息 2014(14)
    • [14].基于二分度的P2P优先搜索策略研究[J]. 西北民族大学学报(自然科学版) 2011(04)
    • [15].基于自适应调整权重和搜索策略的鲸鱼优化算法[J]. 东北大学学报(自然科学版) 2020(01)
    • [16].动态调整搜索策略的果蝇优化算法[J]. 计算机工程与应用 2020(10)
    • [17].因特网信息搜索策略优化的教学案例分析[J]. 中小学电教(下) 2010(11)
    • [18].基于隐枚举的输电网规划局部搜索策略[J]. 中国电机工程学报 2011(01)
    • [19].开放式创新过程中技术搜索策略和方法研究[J]. 情报理论与实践 2011(05)
    • [20].双磁棒旋转搜索电磁定位/跟踪的搜索策略研究[J]. 中国医疗器械杂志 2011(05)
    • [21].针对定向通信类目标的无人机搜索策略研究[J]. 导航定位与授时 2016(02)
    • [22].基于模拟退火遗传算法的主题爬虫搜索策略研究[J]. 科技风 2012(16)
    • [23].基于当前最优解的分段搜索策略的人工蜂群算法[J]. 计算机科学 2015(12)
    • [24].基于模糊评价的VDT系统搜索策略绩效形成机理研究[J]. 中国安全生产科学技术 2019(11)
    • [25].基于子空间扫描的对称权值搜索策略[J]. 工业控制计算机 2018(04)
    • [26].目标-诱饵库搜索策略在蛋白质组质谱鉴定和质控中的应用及研究进展[J]. 生物化学与生物物理进展 2016(07)
    • [27].基于捕食搜索策略的混合动力汽车参数优化[J]. 汽车工程师 2010(01)
    • [28].基于遗传算法的聚焦爬虫搜索策略[J]. 计算机工程 2010(11)
    • [29].一种新的非精确线搜索策略及其收敛性质[J]. 广西师范学院学报(自然科学版) 2010(02)
    • [30].页面布局中项目位置信息提示的视觉搜索策略研究[J]. 心理科学 2010(06)

    标签:;  ;  ;  ;  ;  

    基于仿生学的主题爬虫搜索策略及关键技术研究
    下载Doc文档

    猜你喜欢