导读:本文包含了相似性查找论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:相似性,序列,距离,符号化,时间,片段,编辑。
相似性查找论文文献综述
刘文丽,吴立愿,滕培宋[1](2019)在《广西历史洪水相似性查找数据挖掘与应用》一文中研究指出利用数据挖掘技术,依据洪水相似性度量指标,在水文数据库中进行历史洪水相似性查找,实现实时洪水过程与历史洪水过程的可视化对比分析,为实时洪水过程演化预测预报提供依据,为提高洪水预报精度和科学的实时洪水调度决策提供支撑。目前广西大部分站点为新建的中小河流报汛站,水文资料较少,预警预报方案精度低,通过历史洪水相似性查找数据挖掘应用对从理论上解决水文资料匮乏地区水文规律的探求也具有一定的价值。(本文来源于《广西水利水电》期刊2019年02期)
刘慧婷,黄厚柱,刘志中,赵鹏[2](2018)在《基于分割的字符串相似性查找算法》一文中研究指出字符串相似性查找问题主要包括两方面,基于阈值的字符串相似性查找以及top-k字符串相似性查找。目前处理基于阈值的字符串相似性查找问题的算法多是基于过滤-验证框架的。基于该框架提出了PBsearch算法,算法在过滤阶段首次加入One-Off条件过滤掉大量的无效匹配,并在验证阶段提出了一种新的验证算法MultiThreshold算法,大大减少了计算编辑距离的次数。在top-k字符串相似性查找问题方面,提出了两种基于分割思想的算法,Pb-topk算法和PbCount-topk算法。其中,Pb-topk算法采用差值递增的策略,减少了需处理的字符串数目;PbCount-topk算法采用匹配数目划分的策略,进一步缩小了候选集的规模。最后,通过在3个真实数据集上的实验结果,验证了提出算法的高效性。(本文来源于《计算机科学与探索》期刊2018年01期)
尚军,陈莉,汤宏胜,张苍松,李华[3](2014)在《基于IRST的谱图相似性查找方法研究》一文中研究指出光谱图相似性匹配是推测化合物结构的重要研究方法之一,而如何在标准谱图数据库中进行相似性查找是关键步骤。传统的谱图匹配方法在数据量较大时,检索效率较低。本文首次将互关联后继树(TRST)算法思想应用于光谱图数据领域,从光谱图特征数据点出发,通过对算法的改进,提出了1种基于斜率序列的互关联后继树算法(SSIRST)实现光谱图相似性匹配查找,旨在通过减少匹配过程中的数据量缩短查找时间。实验结果表明,算法可以有效提高光谱图相似性匹配查找效率1倍以上。(本文来源于《计算机与应用化学》期刊2014年03期)
戴东波,熊赟,朱扬勇[4](2010)在《基于参考集索引的高效序列相似性查找算法》一文中研究指出序列数据在文本、Web访问日志文件、生物数据库中普遍存在,对其进行相似性查找是一种重要的获取和分析知识的手段.基于参考集索引技术是一类解决序列相似性查找的有效方法,主要思想是找到序列数据库中的少数序列作为参考集,通过参考集过滤掉数据库中与查询序列不相关的数据,从而高效地回答查询.在现有基于参考集索引技术的基础上,提出一种过滤能力更强的序列相似性查询算法IRI(improved reference indexing).首先,充分利用了先前的查询结果集来加速当前的查询,其次考虑了基于序列特征的上界和下界,使得应用参考集进行过滤的上下界更紧,过滤能力进一步加强.最后,为了避免候选集中费时的编辑距离计算,则只计算前缀序列间的编辑距离,从而进一步加速算法运行.实验采用真实的DNA序列和蛋白质序列数据,结果表明,算法IRI在查询性能上明显优于现有的基于参考集索引方法RI(reference indexing).(本文来源于《软件学报》期刊2010年04期)
孙梅玉,方建安[5](2008)在《一种高效的基于相似性查找时间序列的位符号化表示方法》一文中研究指出到目前为止能够计算字符化时间序列的距离度量的方法很少,为此,提出了一种新的字符化的时间序列表示方法BSAP。该方法既能进行维度约简又允许在符号化后的时间序列表示法上定义距离度量。实验分别在合成数据和实际数据上进行,实验表明该方法具有更高的运算效率且需要较少的空间。(本文来源于《计算机应用研究》期刊2008年08期)
孙梅玉,方建安,姜学波,于冬梅,周豫苹[6](2008)在《一种基于分形和相似性查找的非平稳时间序列符号化表示法》一文中研究指出传统的时间序列表示方法均在不同程度上采用了对数据的约简手段,从而破坏了时间序列的非线性和分形这些重要的本质特征,也就使得时间序列的相似性匹配误差加大。提出一种高精度的随机非平稳时间序列表示方法FSPA,该方法将分形理论和R/S方法应用到现有的时间序列表示方法中,既保留了时间序列的非线性和分形的重要特征,同时也实现了维度的约简。实验分别在合成数据和实际数据上进行,结果表明,该方法具有更高的精度且需要较少的存储空间。(本文来源于《计算机应用》期刊2008年06期)
赵毅[7](2007)在《基于海明距离的DNA序列中相似性重复片段查找技术研究》一文中研究指出生物信息学是随着人类基因组计划的启动、基因序列和蛋白质序列等生物数据迅猛增加而逐渐兴起的一门通过综合运用数学、计算机科学和信息科学来研究生物系统中信息现象的科学。在其广泛的研究领域中,重复片段查找是一个重要的DNA序列分析基础问题,其中的相似性重复片段查找因具有重要的生物意义以及其问题本身的复杂性,一直以来都是广大生物信息学研究人员致力研究的重要课题之一。本文针对DNA序列中两类重要的相似性重复片段——相似性串联重复片段和相似性反向重复片段的查找技术进行了深入研究,在分别为两类重复片段进行形式化定义之后,设计了相应的索引技术和查找算法用于两类相似性重复片段的查找和识别。在相似性串联重复片段查找的研究中,首先在海明距离的基础上定义了模式相似度和相邻相似度的概念用于衡量相似性串联重复片段模式间的相似程度,并提出了新的相似性串联重复片段定义Largest Neighbor-similarity-based Approximate Tandem Repeats (LNATR)。之后,通过将DNA序列划分为模式单元,设计了模式单元数组(Pattern Unit Array, PUA)的索引结构用于LNATR的查找。最后在模式单元数组上,根据后继信息进行模式连接以及模式增长,设计了一种基于模式单元数组的LNATR查找算法,并与Gad M. Landau等人提出的查找算法进行了比较。在相似性反向重复片段查找的研究中,首先在海明距离的基础上定义了匹配度用于衡量相似性反向重复片段模式间的匹配相似程度,并综合考虑了反向重复片段模式间可能存在间隔的特点,提出了新的相似性反向重复片段定义Largest Matching-degree-based Approximate Inverted Repeats (LMAIR)。之后设计了边界索引(Boundary Index, BI)的索引技术用于LMAIR的查找。最后在边界索引的基础上,分别设计了基本LMAIR查找算法和优化的LMAIR查找算法,并对两种算法进行了比较。(本文来源于《东北大学》期刊2007-12-24)
吴青泉,王国仁,王镝,胡大斌,汪恒杰[8](2007)在《基于PFD过滤器查找DNA序列中相似性重复片段》一文中研究指出在DNA序列中查找重复片段是基因序列分析的一个重要课题.由于重复片段的模式长度范围较大,所以仅使用编辑距离(edit distance)很难良好的衡量序列的相似性.提出了衡量重复片段相似性的新标准,新标准表达了序列间的距离与序列中相同部分的关系.考虑到计算的复杂性,基于频率向量提出了新的距离函数PFD(partition frequency distance)以及相应的过滤函数,用以产生重复片段的候选集,提高查找算法的效率.采用后继数组代替滑动窗口的方法进行序列划分,避免只可在等长的片段上查找重复片段的限制.实验结果表明,与TRF(tandem repeat finder)方法相比,基于PFD过滤函数的算法可以找到更多的满足相似性要求的重复片段.(本文来源于《第二十四届中国数据库学术会议论文集(研究报告篇)》期刊2007-10-20)
左新强[9](2007)在《时间序列的相似性查找方法研究》一文中研究指出时间序列是指按时间顺序排列的一组数据,它在实际应用中无所不在,如股票数据、人口数据、温度数据、客户购物数据,以及多维空间中的运动轨迹等。如何对海量的时间序列数据进行分析处理,挖掘其蕴涵的知识信息,对于揭示事物变化和发展规律、发现不同事物之间的相互作用关系、为科学决策提供依据等具有重要的实际意义。本文对时间序列数据挖掘应用中的关键技术——相似性查找——进行了研究,主要内容包括时间序列的符号化表示、时间序列的相似性度量以及符号序列的有效相似性度量。本文的具体工作和贡献包括:(1)时间序列的准确符号化表示提出了一种基于局部切分的时间序列符号化方法。它解决了滑动窗口切分带来的不准确问题。与已有方法相比,实验结果表明了提出的方法在表示准确性方面的明显优势。并提出了针对这种表示的相似性度量方法,采用层次聚类策略进行了聚类实验,能得到比以前的方法更好的精度。(2)时间序列相似性度量的层次模型在时间序列相似性度量中,提出了同层次的点进行比较的思想。基于该思想设计了层次度量模型,并利用快速傅里叶变换实现了两种实际的算法。为了加快在数据库中搜索的速度,提出了有效的过滤算法。k近邻查询和聚类实验结果表明层次模型能够得到比以前方法更好的准确性;时间性能以及过滤性能的测试实验表明了该方法在时间复杂度方面的优势,可以较好地在实际中应用。(3)有效的符号序列编辑距离模型为了提高编辑距离度量符号序列相似性的效果,将数据依赖性引入到编辑距离模型中,给出了一种较经典编辑距离模型更有效的相似模型定义。该定义量化了编辑操作中操作数据和周围数据对序列内容改变大小的影响。通过信息论的解释证明了这种设计的正确性。为了提高在数据库中的搜索效率,提出了一种快速滤除方法。实验结果表明,该方法可以有效地提高了符号序列相似性度量的效果。(本文来源于《清华大学》期刊2007-05-01)
黄超,朱扬勇[10](2006)在《基于回归系数的时间序列维约简与相似性查找》一文中研究指出在时间序列中进行相似性查找往往需要进行维约简.以往的维约简方法或者时间复杂度太大并且不直观(如 DWT、DFT 等),或者无法用于准确的相似性查找(如 PAA 方法).本文提出一种新的基于回归系数的时间序列维约简方法——逐段回归近似(PRA).该方法具有线性时间复杂度,并且对均值平稳的独立噪声干扰不敏感,同时证明了基于 PRA 方法的相似性查找满足下界定理,因而是实用有效的.对实际数据的实验结果验证了本文的结论.(本文来源于《模式识别与人工智能》期刊2006年01期)
相似性查找论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
字符串相似性查找问题主要包括两方面,基于阈值的字符串相似性查找以及top-k字符串相似性查找。目前处理基于阈值的字符串相似性查找问题的算法多是基于过滤-验证框架的。基于该框架提出了PBsearch算法,算法在过滤阶段首次加入One-Off条件过滤掉大量的无效匹配,并在验证阶段提出了一种新的验证算法MultiThreshold算法,大大减少了计算编辑距离的次数。在top-k字符串相似性查找问题方面,提出了两种基于分割思想的算法,Pb-topk算法和PbCount-topk算法。其中,Pb-topk算法采用差值递增的策略,减少了需处理的字符串数目;PbCount-topk算法采用匹配数目划分的策略,进一步缩小了候选集的规模。最后,通过在3个真实数据集上的实验结果,验证了提出算法的高效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
相似性查找论文参考文献
[1].刘文丽,吴立愿,滕培宋.广西历史洪水相似性查找数据挖掘与应用[J].广西水利水电.2019
[2].刘慧婷,黄厚柱,刘志中,赵鹏.基于分割的字符串相似性查找算法[J].计算机科学与探索.2018
[3].尚军,陈莉,汤宏胜,张苍松,李华.基于IRST的谱图相似性查找方法研究[J].计算机与应用化学.2014
[4].戴东波,熊赟,朱扬勇.基于参考集索引的高效序列相似性查找算法[J].软件学报.2010
[5].孙梅玉,方建安.一种高效的基于相似性查找时间序列的位符号化表示方法[J].计算机应用研究.2008
[6].孙梅玉,方建安,姜学波,于冬梅,周豫苹.一种基于分形和相似性查找的非平稳时间序列符号化表示法[J].计算机应用.2008
[7].赵毅.基于海明距离的DNA序列中相似性重复片段查找技术研究[D].东北大学.2007
[8].吴青泉,王国仁,王镝,胡大斌,汪恒杰.基于PFD过滤器查找DNA序列中相似性重复片段[C].第二十四届中国数据库学术会议论文集(研究报告篇).2007
[9].左新强.时间序列的相似性查找方法研究[D].清华大学.2007
[10].黄超,朱扬勇.基于回归系数的时间序列维约简与相似性查找[J].模式识别与人工智能.2006