论文摘要
图作为强大的数据模型,不仅能够描述目标物体的属性,还能描述各个组成之间的结构关系,已经被成功地应用到许多领域中,包含生物信息学,计算机视觉,软件工程和社交网络等。另外一方面,随着信息技术的快速发展,可获得的图数据急剧增加,有效的图管理和查询变得越来越重要。相比于图数据库中的精确搜索,图相似性搜索可以提供鲁棒的解决方案,也就是说它支持容错和允许搜索不精确定义的模式。鉴于图编辑距离(Graph edit distance,GED)的优良特性:适用于任意类型的图和能够精确地捕捉图之间的结构和标签差异,本文考虑了基于GED度量的图相似性搜索问题。具体来讲,给定查询图Q和阈值τ,在图数据库D中找到所有与Q编辑距离小于或等于τ的图。由于GED计算是NP-hard问题,目前已有的方法都基于“过滤–验证”框架。在过滤阶段,设计不同的GED下界过滤那些肯定不满足阈值条件的图;这个阶段通过特定的索引结构高效地完成。在验证阶段利用精确的GED计算方法验证剩余的图。针对已有索引方法的不足(松弛的GED下界,过大的索引空间和有限的可扩展性)和GED计算方法的缺点(巨大的搜索空间,过量的内存消耗和许多昂贵的回溯),本文提出了新的索引结构和GED计算方法,以提高图相似性搜索的性能。具体工作概括为下面四个部分:第一部分研究了解决图相似性搜索的外存索引结构。针对现有索引方法在处理大规模图数据库时具有有限的可扩展性,本文提出了一种基于q-gram表示的外存索引框架,它能够处理超大规模的图数据库。具体而言,将q-gram计数过滤器转变为稀疏矩阵向量乘(Sparse matrix-vector multiplication,SpMV)问题,并提出了基于混合布局的q-gram矩阵索引,以实现有效的查询处理。同时,将每个图转变为vertex-edge 2D空间的点,并将全局计数过滤器转变为2D查询矩形来提高查询性能;这允许只在缩小的查询区域中执行搜索,从而显著地减少查询I/O次数。在真实数据集上的实验结果表明所提外存索引能够处理包含2500万个化合物的超大数据集,并比基于q-gram的外存倒排索引需要更少的查询I/O次数。第二部分研究了解决图相似性搜索的简明索引结构。鉴于现有内存索引方法的过滤能力有限和索引空间过大的问题,本文提出了一种简明的q-gram树索引,它结合了简明数据结构和混合编码,以最小的内存空间使用来提高查询性能。具体来说,所提简明q-gram树的索引大小只有主流索引大小的5%–15%,但同时在测试数据集上实现了几倍的查询加速。此外,还提出了两个有效的GED下界(即,q-gram计数下界和度序列下界)和一种下界提升技术,以获得尽可能小的候选集。在真实和模拟数据集上的实验结果表明,所提简明q-gram树在索引大小和查询性能方面都优于主流索引方法。据我们所知,该索引是第一个能够处理包含2500万个化合物的超大数据集的内存索引。第三部分研究了GED的高效计算方法。观察到已有GED计算方法具有若干缺点:巨大的搜索空间,过量的内存消耗和许多昂贵的回溯调用,本文呈现了一种新颖的基于顶点映射的GED计算方法。该方法能够识别无效和冗余映射,从而在缩小的搜索空间中计算GED。此外,采用了波束堆栈搜索(beam-stack search),并结合了两种专门设计的启发式方法来提高GED计算,实现了内存利用和回溯调用之间的均衡。在真实和模拟数据集上的实验结果表明,所提方法在稀疏和稠密图上都优于主流GED计算方法。此外,还扩展了该方法以解决图相似性搜索问题。实验结果表明,扩展后的方法比已有的图相似性搜索方法快几十倍。第四部分研究了GED的近似计算方法。考虑到GED计算的NP-hard困难性限制了其在很多领域中的应用,本文提出了一种任何时间算法(anytime algorithm)近似计算GED。该近似算法将运行时间作为参数从而输出一系列改进的GED次最优解(suboptimal solution),以满足不同的运行时间需求。具体而言,提出了一种基于邻居偏差的贪心匹配方法,它能够在二次运行时间内快速地得到GED的初始次最优解;然后,采用结合了更有效的启发式估计的树搜索方法来提高所获得GED次最优解。该启发式函数基于扩展的分支编辑距离,理论上能够产生比标签编辑距离更加紧确的GED下界。在大的和小的运行时间设置下,相比于主流的GED近似算法,所提任何时间算法都能实现最小的偏差。
论文目录
文章来源
类型: 博士论文
作者: 陈晓阳
导师: 霍红卫
关键词: 图编辑距离,图相似性搜索,外存索引,简明索引,波束堆栈搜索,任何时间算法
来源: 西安电子科技大学
年度: 2019
分类: 基础科学
专业: 数学
单位: 西安电子科技大学
分类号: O157.5
DOI: 10.27389/d.cnki.gxadu.2019.000097
总页数: 136
文件大小: 3226K
下载量: 80
相关论文文献
- [1].侗台语族语言的编辑距离分类[J]. 计算机工程与应用 2018(19)
- [2].图编辑距离概述[J]. 计算机科学 2018(04)
- [3].基于中文文本的编辑距离算法的改进[J]. 青岛大学学报(自然科学版) 2017(03)
- [4].一种新颖的编辑距离限制下的相似性确认算法[J]. 东北大学学报(自然科学版) 2019(11)
- [5].基于自动纠错的最小编辑距离优化算法[J]. 网络安全技术与应用 2019(12)
- [6].基于编辑距离的序列聚类算法的优化[J]. 计算机技术与发展 2018(03)
- [7].融合音素串编辑距离的随机段模型解码算法[J]. 计算机工程与应用 2015(06)
- [8].满足度量性质的归一化树编辑距离[J]. 北京工业大学学报 2011(04)
- [9].基于改进编辑距离和依存文法的汉语句子相似度计算[J]. 计算机应用与软件 2008(07)
- [10].编辑距离在语言分类研究中的应用[J]. 现代语文 2018(05)
- [11].基于树编辑距离的聚类算法数据记录抽取[J]. 赤峰学院学报(自然科学版) 2013(12)
- [12].有向标记根树之间的语义编辑距离[J]. 模式识别与人工智能 2011(06)
- [13].基于异或编辑距离算法的航班号相似度研究[J]. 湘潭大学自然科学学报 2015(02)
- [14].编辑距离与语言分类[J]. 宁波大学学报(人文科学版) 2018(05)
- [15].基于变迁图编辑距离的流程相似性算法[J]. 计算机应用研究 2020(04)
- [16].基于图编辑距离的恶意代码检测[J]. 武汉大学学报(理学版) 2013(05)
- [17].编辑距离算法在中文文本相似度计算中的优化与实现[J]. 韶关学院学报 2015(12)
- [18].一种度量图像相似性和计算图编辑距离的新方法[J]. 电子学报 2009(10)
- [19].支持块编辑距离的索引结构[J]. 计算机研究与发展 2010(01)
- [20].基于编辑距离相似度的文本校验技术研究与应用[J]. 飞行器测控学报 2015(04)
- [21].基于约束树编辑距离与导航树的信息采集[J]. 计算机工程 2009(14)
- [22].基于改进编辑距离算法的保护装置测试模板开发[J]. 广东电力 2018(10)
- [23].基于权重编辑距离的XML查询[J]. 兰州交通大学学报 2010(03)
- [24].Web信息抽取中基于结点权重的树编辑距离匹配法研究[J]. 计算机时代 2010(03)
- [25].编辑距离的数控机床故障诊断案例推理方法[J]. 中国工程机械学报 2017(04)
- [26].基于字符串编辑距离的图像检索算法[J]. 信息通信 2015(07)
- [27].LCS算法与编辑距离算法的研究[J]. 信息通信 2015(05)
- [28].基于自适应编辑距离的颜料光谱匹配识别方法[J]. 激光与光电子学进展 2018(11)
- [29].一种节点加权的相似重复XML数据检测算法[J]. 计算机光盘软件与应用 2014(02)
- [30].一种新的手写体数字识别方法[J]. 科技信息(学术研究) 2008(25)