论文摘要
兴趣点(point of interest,POI)数据是一种与大众生活密切相关的地理信息资源,并成功应用在城市规划、地图导航等领域。随着移动网络、物联网等技术的快速发展及地理信息服务的不断深入,互联网上蕴含大量与空间位置密切相关的POI信息且大多位于深网网络之中,并在不断增多与变更,如何充分挖掘深网网络中蕴含的POI数据成为当前空间信息领域的一个研究热点。然而综合国内外相关研究可以发现,目前通用搜索引擎和普通深网爬行方法难以有效获取深网POI数据,其主要原因在于候选检索词库构建困难、爬行检索词需要优化、数据请求量受限制等,针对上述问题本文提出了一种基于检索词优化和空间自适应剖分的深网POI信息检索方法,并以北京市五环的外接矩形为实验区,对深网POI数据服务获取POI数据的方法进行了验证。本论文的主要研究工作包括以下两点:(1)针对深网POI数据获取过程中检索词库构建及优化困难,提出了利用基于爬行覆盖率排序的检索词优化方法,该方法通过整理网站分类目录、利用中文分词提取分类特征词以及同义词补充初步构建候选检索词,然后经过计算训练区深度探测结果,得到检索词检索效能指标,最后通过设置爬行覆盖率阈值进行检索词优化降维,实现对检索词库的构建及优化。(2)绝大多数深网POI数据服务为了保护其信息资产的目的,在提供可检索服务的同时,会对信息请求进行控制,空间范围作为一个必备的输入条件,在影响数据获取量的同时,也对获取效率产生较大影响,因此,本文提出了基于栅格统计和二叉树的空间自适应剖分的爬行策略、基于路网的多层次空间剖分策略,确保在剖分出空间范围数尽量小的情况下能够获取最大数量的POI数据,并对方法进行技术验证。
论文目录
文章来源
类型: 硕士论文
作者: 崔腾腾
导师: 刘纪平
关键词: 数据,深网搜索,检索词优化,自适应剖分
来源: 中国测绘科学研究院
年度: 2019
分类: 基础科学,信息科技
专业: 自然地理学和测绘学,计算机软件及计算机应用
单位: 中国测绘科学研究院
分类号: P208
总页数: 63
文件大小: 4211K
下载量: 36
相关论文文献
- [1].街道网络线性剖分模型支持下的食品可达性研究[J]. 地理与地理信息科学 2019(01)
- [2].基于EMD的剖分空间关系计算模型初探[J]. 北京大学学报(自然科学版) 2012(03)