检索词优化的深网POI数据自适应剖分获取方法研究

检索词优化的深网POI数据自适应剖分获取方法研究

论文摘要

兴趣点(point of interest,POI)数据是一种与大众生活密切相关的地理信息资源,并成功应用在城市规划、地图导航等领域。随着移动网络、物联网等技术的快速发展及地理信息服务的不断深入,互联网上蕴含大量与空间位置密切相关的POI信息且大多位于深网网络之中,并在不断增多与变更,如何充分挖掘深网网络中蕴含的POI数据成为当前空间信息领域的一个研究热点。然而综合国内外相关研究可以发现,目前通用搜索引擎和普通深网爬行方法难以有效获取深网POI数据,其主要原因在于候选检索词库构建困难、爬行检索词需要优化、数据请求量受限制等,针对上述问题本文提出了一种基于检索词优化和空间自适应剖分的深网POI信息检索方法,并以北京市五环的外接矩形为实验区,对深网POI数据服务获取POI数据的方法进行了验证。本论文的主要研究工作包括以下两点:(1)针对深网POI数据获取过程中检索词库构建及优化困难,提出了利用基于爬行覆盖率排序的检索词优化方法,该方法通过整理网站分类目录、利用中文分词提取分类特征词以及同义词补充初步构建候选检索词,然后经过计算训练区深度探测结果,得到检索词检索效能指标,最后通过设置爬行覆盖率阈值进行检索词优化降维,实现对检索词库的构建及优化。(2)绝大多数深网POI数据服务为了保护其信息资产的目的,在提供可检索服务的同时,会对信息请求进行控制,空间范围作为一个必备的输入条件,在影响数据获取量的同时,也对获取效率产生较大影响,因此,本文提出了基于栅格统计和二叉树的空间自适应剖分的爬行策略、基于路网的多层次空间剖分策略,确保在剖分出空间范围数尽量小的情况下能够获取最大数量的POI数据,并对方法进行技术验证。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  •   1.1 研究背景与意义
  •     1.1.1 研究背景
  •     1.1.2 研究意义
  •   1.2 国内外发展现状
  •     1.2.1 深网数据获取
  •     1.2.2 互联网POI数据获取
  •   1.3 主要研究内容与技术路线
  •     1.3.1 主要研究内容
  •     1.3.2 技术路线
  •   1.4 本文的组织结构
  • 第二章 深网POI数据获取技术方法
  •   2.1 引言
  •   2.2 深网数据获取模式
  •   2.3 主要难点
  •   2.4 本章小结
  • 第三章 深网POI爬虫检索词优化
  •   3.1 引言
  •   3.2 构建候选检索词
  •     3.2.1 基于网站分类目录获取检索词
  •     3.2.2 利用中文分词提取分类特征词
  •     3.2.3 基于同义词扩展候选检索词库
  •   3.3 候选检索词优化
  •     3.3.1 检索词优化指标
  •     3.3.2 训练区探测式POI数据获取
  •     3.3.3 检索词优化
  •   3.4 实验与分析
  •     3.4.1 候选检索词生成
  •     3.4.2 候选检索词优化
  •   3.5 本章小结
  • 第四章 基于范围自适应剖分的深网POI获取
  •   4.1 引言
  •   4.2 基于POI类别的爬虫策略
  •   4.3 空间自适应剖分策略
  •     4.3.1 基于栅格统计和二叉树的格网自适应剖分
  •     4.3.2 基于路网的多层次空间剖分
  •   4.4 实验与分析
  •     4.4.1 基于栅格统计和二叉树的格网自适应剖分
  •     4.4.2 基于路网的多层次空间剖分
  •     4.4.3 对比分析
  •   4.5 本章小结
  • 第五章 结论与展望
  •   5.1 研究工作总结
  •   5.2 主要创新点
  •   5.3 展望
  • 致谢
  • 攻读硕士期间的科研情况
  • 参考文献
  • 文章来源

    类型: 硕士论文

    作者: 崔腾腾

    导师: 刘纪平

    关键词: 数据,深网搜索,检索词优化,自适应剖分

    来源: 中国测绘科学研究院

    年度: 2019

    分类: 基础科学,信息科技

    专业: 自然地理学和测绘学,计算机软件及计算机应用

    单位: 中国测绘科学研究院

    分类号: P208

    总页数: 63

    文件大小: 4211K

    下载量: 36

    相关论文文献

    • [1].街道网络线性剖分模型支持下的食品可达性研究[J]. 地理与地理信息科学 2019(01)
    • [2].基于EMD的剖分空间关系计算模型初探[J]. 北京大学学报(自然科学版) 2012(03)

    标签:;  ;  ;  ;  

    检索词优化的深网POI数据自适应剖分获取方法研究
    下载Doc文档

    猜你喜欢