导读:本文包含了相似重复记录检测论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:数据,算法,属性,质量,技术,信息,字段。
相似重复记录检测论文文献综述
陈彦萍,洪明杰,杨小宝[1](2019)在《基于信息熵属性约简的相似重复记录检测方法》一文中研究指出相似记录检测已成为数据清洗的一个重要分支,也是消除数据冗余提高数据质量的一个重要途径,在数据统计、数据分析、数据仓库、人工智能和数据挖掘等领域都有实际应用。该文对目前相似记录检测方法进行了研究,针对诸多方法都存在检测精度不足和时效慢的问题,采用K-Modes进行聚类分组的方法,通过信息熵理论来确定属性权重并约简属性维度,同时在记录匹配阶段依据属性重要程度对各聚类分组的数据逐属性进行比较,根据阈值来判断其相似性,避免整条记录参与匹配耗费时间,在完成对每个数据集的检测后最终消除相似重复记录。实验表明,该方法能有效缩小检测数据集范围和相似匹配效率,提高检测精度和时间效率,具有较高的查全率和查准率。(本文来源于《计算机与数字工程》期刊2019年12期)
陈亮,杜璐,胡康[2](2019)在《基于分块和滑窗技术的相似重复记录检测算法研究》一文中研究指出相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。(本文来源于《计算机应用与软件》期刊2019年04期)
李莉,张晓雯[3](2019)在《基于划分的海量数据相似重复记录检测》一文中研究指出针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升.(本文来源于《计算机系统应用》期刊2019年03期)
谢毅[4](2019)在《移动网络相似信息重复记录智能检测仿真》一文中研究指出移动网络相似信息重复记录检测在专利分析系统中具有广泛的应用前景。针对当前方法存在检测耗时较长、查准率和查全率较低等问题,提出一种基于领域本体的移动网络相似信息重复记录智能检测方法,构建了一种叁维的移动网络文本空间表示模型,对移动网络中相似信息重复记录文本集合中的文本向量进行结构化描述。在此基础上,基于领域本体分别对移动网络相似信息重复记录中的词语、句子和文本进行相似度检测,得到移动网络文本中任意两个句子的相似度特征矩阵。对移动网络文本中句子相似度特征矩阵进行遍历,选取其中相似度最大的句子组合,并将该组合所属行列从矩阵中删除,再从剩余矩阵中相似度最大的句子组合筛选出来,以此类推,直到句子中的元素数目变为0,提取获得相似度最大句子组合序列,根据该序列即可实现移动网络相似信息重复记录的智能检测。仿真测试结果表明,上述方法在移动网络相似信息重复记录相似度检测准确性上更具优势,具有较高的查准率和查全率,并且检测效率较高。(本文来源于《计算机仿真》期刊2019年02期)
宋人杰,余通[5](2018)在《基于Hadoop的大规模电网数据相似重复记录并行检测策略》一文中研究指出针对电网数据来源多、维度高、体量大的特点,提出云环境下大规模电网数据相似重复记录并行检测算法MP-MATCH;首先,引入海明距离、倒排索引算法和狄利克雷抽屉原理对Sim Hash算法改进,解决相似重复记录检测精度和效率缺失的问题;其次,基于MapReduce模型设计改进的Sim Hash算法的并行执行策略,实现云环境下大规模电网数据相似重复记录并行检测;最后,在Hadoop平台上进行实例对比分析,结果表明了算法的高效性和精确性,并具有良好的伸缩性和加速比,适用于大规模电网数据的相似重复记录并行检测。(本文来源于《科技通报》期刊2018年07期)
余通[6](2018)在《大数据环境下文本数据相似重复记录检测方法研究》一文中研究指出相似重复记录的有效检测是保证数据质量的关键,也是获取可靠决策知识的重要保障。随着智能化应用系统的广泛普及,数据规模呈指数级增长,并且在这快速增长的大规模数据中,大部分相似重复数据以文本形式存在。因此,大数据环境下文本数据相似重复记录的有效检测对提高数据质量具有重要意义。本文将文本数据相似重复记录的检测转换为对其二进制串相似重复性的检测,传统Simhash算法可实现该功能,但存在文本数据记录与Simhash指纹(二进制串)的转换精度低以及Simhash指纹相似度匹配效率不高的问题。因此,本文首先引入基于内维尔插值算法的缺失数据填补方法对原数据中的缺失数据进行填补,接着利用汉语词法分析系统对已填补的数据记录进行关键词提取,并采用词频-逆文档频率算法计算关键词的权重,从而提高文本数据记录与Simhash指纹的转换精度。其次,设计基于图聚类分析的指纹分类策略,并引入海明距离,解决指纹相似度匹配效率不高的问题。最后,基于对Simhash的改进提出相似重复记录检测算法(SRDA,Similar Repeat Detection Algorithm),实现文本数据记录与Simhash指纹的转换以及文本数据相似重复记录的检测。大数据环境下的文本数据规模庞大,单机计算资源难以满足其处理要求。因此,针对大规模文本数据相似重复记录检测问题,提出基于MapReduce模型的文本数据相似重复记录检测方法。首先,设计基于狄利克雷抽屉原理的Simhash指纹倒排索引算法。其次,利用该算法对文本数据相似重复记录检测算法SRDA进行优化,避免在相似重复记录检测中对Simhash指纹每“比特位”的依次比较。最后,基于MapReduce模型对优化后的算法进行并行化设计,实现大规模文本数据相似重复记录的并行检测。大数据环境下的文本数据产生速度快,需要响应性高的处理技术,而MapReduce相对Spark虽具有高吞吐量的优势,但其运行速度相对缓慢。为此,针对文本数据相似重复记录的快速检测问题,提出基于Spark的文本数据相似重复记录检测方法。首先,鉴于Spark内存计算的优势,设计基于图论的Simhash指纹搜索策略。然后,结合SRDA设计相似重复记录检测算法,并在Spark上设计实现该算法,完成文本数据相似重复记录的快速检测。利用本文提出的方法对来自UCI的数据进行实验对比分析,实验结果表明,本文所提出的方法能够准确、客观的实现大数据环境下文本数据相似重复记录的检测,并具有较高的检测精度、召回率和执行效率,能为数据清洗的研究工作提供一定的参考。(本文来源于《东北电力大学》期刊2018-06-01)
马可,郑广海[7](2018)在《一种针对关系数据库记录的相似重复记录检测算法》一文中研究指出在大数据处理分析中,需要对数据记录进行相似重复记录检测并消除,可以提高数据记录的质量。邻近排序算法(SNM算法)是对数据库所有记录进行排序比对,新记录和旧记录都需要比对,而旧记录的相互比是已经做过的,这就造成了一定的计算浪费。在考虑尽量减少这种计算浪费的基础上,提出了一种针对关系数据库记录的相似重复记录检测算法,算法首先创建记录属性关系表,设定属性的相应权重和相似度阈值,通过属性关系表计算记录和其他记录的相似度,从而完成对相似重复记录的检测。实验表明新的算法的效率比SNM算法有一定提高。(本文来源于《电脑知识与技术》期刊2018年13期)
宋人杰,余通,陈宇红,陈宇阳,夏滨[8](2018)在《基于MapReduce模型的大数据相似重复记录检测算法》一文中研究指出针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进行实例分析,以验证MP-SYYT算法的高效性和实用性.(本文来源于《上海交通大学学报》期刊2018年02期)
黄建琼[9](2016)在《基于二次模糊评判的相似重复记录检测方法》一文中研究指出数据库集成时会产生大量的相似、重复记录,字段匹配算法是对其进行检测并清洗的主要方法之一.针对等级法确定属性权值主观性过强的问题,提出改进的基于二次模糊评判的检测方法.根据等级法对属性进行第一次评判,剔除等级低的部分非重要属性;对剩余属性进行二次模糊评判,平均属性等级评判的结果,确定属性权值,然后对数据集进行分组,并在各个数据集中检测相似重复记录.理论分析和实验结果表明,该方法不仅提高了运行效率,而且可以进一步提高查重的查准率和查全率.(本文来源于《江苏师范大学学报(自然科学版)》期刊2016年01期)
王琛[10](2015)在《一种基于属性权值分组聚类的相似重复记录检测方法》一文中研究指出为了提高数据集中相似重复记录的检测效率,提出一种基于属性权值的分组聚类算法。该方法在记录集中选取特征属性,通过设定的权值对记录进行聚类,在形成的数据子集中进行字段匹配和记录匹配,来识别相似重复记录,并给出了相关算法。实验表明,该方法能减少字段的匹配次数和记录的匹配范围,节省运行时间,具有较高的查全率和查准率。(本文来源于《宁波职业技术学院学报》期刊2015年02期)
相似重复记录检测论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
相似重复记录检测论文参考文献
[1].陈彦萍,洪明杰,杨小宝.基于信息熵属性约简的相似重复记录检测方法[J].计算机与数字工程.2019
[2].陈亮,杜璐,胡康.基于分块和滑窗技术的相似重复记录检测算法研究[J].计算机应用与软件.2019
[3].李莉,张晓雯.基于划分的海量数据相似重复记录检测[J].计算机系统应用.2019
[4].谢毅.移动网络相似信息重复记录智能检测仿真[J].计算机仿真.2019
[5].宋人杰,余通.基于Hadoop的大规模电网数据相似重复记录并行检测策略[J].科技通报.2018
[6].余通.大数据环境下文本数据相似重复记录检测方法研究[D].东北电力大学.2018
[7].马可,郑广海.一种针对关系数据库记录的相似重复记录检测算法[J].电脑知识与技术.2018
[8].宋人杰,余通,陈宇红,陈宇阳,夏滨.基于MapReduce模型的大数据相似重复记录检测算法[J].上海交通大学学报.2018
[9].黄建琼.基于二次模糊评判的相似重复记录检测方法[J].江苏师范大学学报(自然科学版).2016
[10].王琛.一种基于属性权值分组聚类的相似重复记录检测方法[J].宁波职业技术学院学报.2015