导读:本文包含了不完整数据集论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:数据,不完整,区间,缺失,可用性,多功能,纵向。
不完整数据集论文文献综述
牛明航[1](2019)在《自适应区间的不完整数据加权聚类算法研究》一文中研究指出随着人们进入信息时代的同时人们也在不知不觉中进入大数据时代。数据对人们的生活、工作起着愈发重要的作用,但是在数据采集过程中由于噪声、数据采集失败等原因经常造成采集数据的缺失,造成不完整数据集。传统的期望最大化,加权估计方程,K-近邻等方法不能满足现在聚类精度的需要,怎样提高不完整数据的聚类精度一直是广大国内外学者关注的热点问题。首先,本文针对模糊C均值算法(FCM)无法直接处理不完整数据的问题,提出一种自适应区间的不完整数据模糊聚类算法(AI-IFCM)。提出属性相关度距离计算待填补数据样本和其他样本之间的距离来确定缺失数据样本的邻近样本集,最近邻样本的数量由最近邻规则选取,得到近邻样本集的属性值范围作为缺失数据属性区间化填补的上限和下限,区间默认中值为缺失属性对应近邻样本值的中值,为进一步减小区间对模糊聚类的误差提出区间因子来调节区间大小,计算近邻样本之间的分散度和中心值确定区间因子,计算后区间数据集代入区间模糊C均值(IFCM)进行聚类分析。其次,针对样本离群点影响模糊聚类准确率的问题,本文提出了一种针对不完整数据的区间样本加权模糊聚类算法(AI-WIFCM),为体现样本对聚类中心的贡献程度,在算法的迭代过程中加入了样本权值。本文首先发现了传统样本权值赋予的局限性,提出一种新的样本权值赋值方法,其次算法在自适应区间型数据集的基础上,把样本权值的计算扩展到区间型数据集,并对区间模糊C均值进行改进,在算法的迭代过程中引入区间数据样本的权值,有利于聚类中心的选取,增加了聚类的准确率。最后,本文采用了UCI数据库中的生物数据集鸢尾花Iris、医疗数据集乳腺癌Breast和医学数据集成年人肝病Bupa,以及人工生成了有规律的数据集ONE和没有规律的数据集TWO。在四种缺失率的情况下和WDS-FCM、PDS-FCM、OCS-FCM等算法进行实验,并对算法的原理进行了分析对比,结果证明本文算法有更高的聚类准确率。(本文来源于《辽宁大学》期刊2019-05-01)
杨梦雅,侯雯,杨鹏,邹文斌,汪天富[2](2019)在《基于纵向不完整数据联合深度集成回归预测阿尔茨海默病临床评分》一文中研究指出阿尔茨海默病(AD)是一种进行性神经系统退行疾病,具有不可逆性,需要医生密切监测患者的病情,并根据病情发展及时调整治疗计划。研究表明,临床评分是医生进行疾病评估的最有效依据,且磁共振成像(MRI)数据也非常适合用于预测阿尔茨海默病患者的临床评分。传统研究中,学者们大多是基于单一时间点的MRI数据进行临床评分预测。提出建立一个探索MRI数据与临床评分之间关系的模型,并使用纵向MRI数据预测未来时间点的临床评分。该模型包含3个部分:首先基于相关熵正则化联合学习进行特征选择;然后基于深度多项式网络进行特征编码;最后利用支持向量回归。回归过程在两种情形下进行,情形1是使用基线数据预测未来时间点的临床评分,情形2是结合被测时间点之前的所有数据预测该时间点的临床评分。与此同时,情形2还可填补缺失评分,解决了数据的不完整问题。在情形1中,通过所提出的模型对未来5个不同时间点的临床评分进行预测,获得的平均绝对误差值为2.01、2.06、2.06、2.27、2.00以及皮尔森相关系数值为0.70、0.69、0.56、0.65、0.67。在情形2中,所提出的模型在未来4个不同时间点获得的平均绝对误差值为0.14、0.10、0.09、0.08以及皮尔森相关系数值为0.72、0.75、0.78、0.74。通过以上实验证明,所提出的回归框架不仅可准确描述MRI数据与评分之间的关系,而且可以有效地预测纵向评分。(本文来源于《中国生物医学工程学报》期刊2019年02期)
刘永楠[3](2019)在《不完整数据上的查询处理技术》一文中研究指出随着大数据时代的到来,数据质量的重要性日益凸显。信息数字化过程中的种种错误,导致了数据库中的信息无法反映真实世界的完整面貌。当前的众多报告表明不完整数据会引起计算结果的偏差,进而对商业的决策和民众的生活造成广泛的不良影响,给查询的处理带来了挑战。因此设计不完整数据上的高效的查询处理技术,对弱可用数据进行有效使用至关重要。当前的数据可用性领域对于不完整数据上的查询处理的研究缺乏体系,这方面的研究面临极大的挑战。首先,缺乏统一的数据完整性评估模型,无法给出数据集合完整程度的真实评估结果。其次,面对无法修复全部缺失值的数据集合时,当前缺乏根据用户的需求,在查询结果中给出尽可能完整的信息的方法。第叁,在不完整数据集合上,同时考虑完整信息程度和聚集目标时,当前缺乏在一定的质量误差条件下,给出高质量的查询结果的方法。第四,当前缺乏快速地估计查询结果的完整程度的方法,无法根据不完整数据的完整性特征,给出估计结果。为了有效地应对上述由不完整数据带来的挑战,在本文中,尝试在不进行数据修复的情况下,根据关系型数据的特点,提出不完整数据上的查询处理技术,提供具有较高完整性的查询结果,提出一系列的理论和对应的高效算法,解决了不完整数据上查询处理的一些关键问题,主要的研究内容可以进行如下概括。(1)在本文中,研究了数据完整性的评估模型和算法。为了克服当前对完整性的评估依赖具体查询,低估了数据中的有效信息含量的局限性,形式化地定义了基于函数依赖的数据完整性评估模型。这个模型可以从属性、元组和关系叁个粒度,来度量所包含信息的完整程度。进而形式化了在此模型下的数据完整性评估问题,给出了这个问题的时间复杂性下界。然后,给出了结合函数依赖特点,用于完整性评估的完整性伪闭包。通过分析完整性伪闭包的性质,建立了完整性传播图来评估数据完整性。基于完整性传播图,给出了达到问题下界的高效评估算法。最后在真实数据集合与合成数据集合上的实验验证了算法的有效性和高效性。(2)在本文中,研究了基于支配集合的不完整数据的查询处理问题,并给出了高效的处理方法。当数据中的缺失值无法被修复,或者修复算法耗时较长时,可以根据用户的需求,选择一个完整程度较高,在用户感兴趣的属性上给出完整信息,并且规模较小的子集合,这个子集合被称为支配集合。基于这个集合,可以有效地处理查询,高效地给出查询结果。本文首先形式化了支配集合的选择问题,证明了其判定版本是一个NP-完全问题;其次,设计了高效的支配集合选择算法,通过理论分析,证明了所抽取的数据集合的良好性质。然后,基于支配集,给出了进一步处理查询的方法。最后,通过真实数据和合成数据上的实验,验证了所提出的方法的有效性和高效性,并研究了不同参数对于算法的影响。(3)在本文中,研究了带有完整性约束的不完整数据的查询处理问题,并给出了高效的处理方法。在不完整数据集合上,查询结果往往无法包含足够的信息。为此,提出了一种适用于不完整数据的查询结果的形式。在一定的质量误差范围内,对于返回的查询结果,既能在某些用户感兴趣的属性上给出较完整信息,又能在整体上近似地满足聚集性质,使之成为一个高质量的整体。首先,形式化地定义了这一问题,并证明了其判定版本是一个NP-完全问题。然后,根据用户是否明确地给出对于元组的选择策略,分别基于贪心策略和加权抽样方法,设计了两个多项式时间的近似算法。对于两个算法的时间复杂性,以及所给出的查询结果的质量给出了理论分析和证明。最后,通过实验验证了所提出的两个近似算法能够高效地给出高质量的查询结果,并且两个近似算法具有良好的可扩展性。(4)在本文中,研究了不完整数据上查询结果的完整性估计问题,并设计了高效的估计算法。当前缺乏对于整体数据集合的完整性信息的刻画方法,可以通过抽取一个反映整体数据集合的完整程度的特征数据集合,来进行查询结果的完整程度估计。为此,提出了特征数据集合应有的两条性质:覆盖性和完整度,分别从属性和属性值角度,给出了对于数据集合所容纳的完整信息的衡量。为了满足这两条性质和不同的需求,定义了6类不同的完整性特征数据集合,证明了上面6类特征数据集合的抽取问题的判定版本都是NP-完全问题;然后,设计了优化解规模猜测策略和误差分配策略,来充分利用不同完整程度的元组,近似地满足以上两个重要的性质。基于均匀抽样和上述策略,给出了抽取完整性特征数据集合的近似算法,它能在多项式时间内,高效地抽取近似满足这两个性质的特征数据集合。然后基于抽取的完整性特征集合,给出了高效的完整性估计的方法。通过理论分析,证明了估计算法具有良好的性质。最后,通过真实数据集合与合成数据集合上的实验,证明了所提出的完整性估计方法,能够高效地估计查询结果的完整程度。(本文来源于《哈尔滨工业大学》期刊2019-03-01)
李素娟[4](2019)在《舰船通信系统重复不完整数据智能修复方法研究》一文中研究指出为了有效提高舰船通信系统重复不完整数据的修复效果,提出新型通信系统数据智能修复方法。对未修复数据进行预处理,通过数据文档耦合组件,确定数据量信息和数据备注信息,采用多模匹配算法,提取数据内容中的有效文本,利用UTF_7编码规则,更改乱码文本域名,以OOXML格式为样本,建立船舶通讯数据的xml数据格式,提取数据前序,并进行域名更改后的待修复数据文本内容,嵌入到对应的标准格式模板对应页中,实现数据智能修复。实验数据表明,与传统数据修复方法相比,新设计的智能修复方法对关系数据区修复度提高22%,内容数据区修复度提高了27%,可以达到提高通信系统数据修复度的目的。(本文来源于《舰船科学技术》期刊2019年04期)
钱晓东,罗彦福[5](2019)在《基于互信息属性排序的不完整数据聚类算法》一文中研究指出数据缺失对聚类算法提出了挑战,传统方法往往采用均值或回归方法将不完整数据进行填充,再对填充后的数据进行聚类.为解决均值填充和回归填充等方法在数据缺失比率增大时填充精度以及聚类效果变差的问题,提出一种新的不完整数据相似度计算方法.以期望互信息为依据对数据集中的属性排序,充分考虑了数据集中与位置相关的属性值特征,以数据集本身元素作为缺失值填充的来源,对排序后的不完整数据集进行相似度填充计算,最后采用基于局部密度的聚类算法进行聚类.利用UCI机器学习库中的数据集验证本文填充聚类算法,实验结果表明,当数据集中缺失值增多时,算法对缺失值的容忍性较好,对缺失元素的恢复能力较强,填充精度以及最终聚类结果方面均表现良好.本文填充计算相似度的方法考虑数据集的每个属性值来对缺失值逐个填充,因而耗时较多.(本文来源于《信息与控制》期刊2019年01期)
陈维高,朱卫纲,唐晓婧,贾鑫[6](2019)在《不完整数据集的MFR辐射源识别方法研究》一文中研究指出该文提出一种基于随机森林的不完整数据集的多功能雷达(MFR)辐射源识别方法,该方法在MFR辐射源波形单元识别框架基础上,首先对参数缺失的先验知识集进行多重划分,得到多个不含缺失参数的样本子集,然后删减冗余子集并利用随机森林算法对各个子集构建弱分类器,最后根据弱分类器对识别结果贡献率的不同,进行权值设定,得到最终的识别模型。仿真实验证实了提出的MDRF-WA方法能够提高少量先验知识条件下波形单元识别的准确率和鲁棒性,降低计算成本。(本文来源于《电子科技大学学报》期刊2019年01期)
郭素[7](2019)在《基于众包的不完整数据Skyline查询处理研究》一文中研究指出在过去十年间,针对不完整数据的查询处理研究受到广泛关注。现有方法往往致力于数据预处理,利用机器学习技术对缺失值进行填补。此类方法的查询质量受限于机器算力。在某些情况下,群体智慧可以很好地解决机器难以解决的问题。对此,我们希望借助众包来优化查询质量。本文研究针对不完整数据的Skyline查询处理问题,提出一个基于众包的Skyline查询框架,称之为BayesCrowd。该框架包含不完整数据建模阶段和众包阶段。在建模阶段,我们借助贝叶斯网络刻画数据相关性,利用c-table模型表示不完整数据对象,并提出高效建模算法。在众包阶段,我们通过众包计算对象间支配关系,从而得到Skyline查询结果。考虑到众包预算和众包延迟,BayesCrowd需要选择性地发布众包任务。因此,本文设计效用函数来衡量众包任务的效益,并提出了叁种任务选择策略来满足不同用户需求。最后,我们在真实数据集以及合成数据集上进行大量的实验,从查询耗时、查询成本以及查询延迟的角度验证BayesCrowd的优越性。(本文来源于《浙江大学》期刊2019-01-15)
王伟贤,张禄,田贺平,陈振[8](2018)在《不完整数据高效近似查询处理算法》一文中研究指出当前的不完整数据查询处理算法没有将冗余数据和脏数据清洗,而且寻优过程缓慢,不利于数据查询结果的快速展示。提出将各数据阅读器和各局部过滤器连接,利用局部过滤器对数据阅读器所传输的脏数据和多读数据进行一次局部性地过滤,再由各个局部过滤器把初步清洗的数据发送到全局过滤器,且由全局过滤器依据阅读器空间位置以及其他信息,实现包含添加漏读数据和删除多读数据以及冗余数据的进一步清洗,以提高查询效率。将Rank List结构作为索引,利用Topk数据结构有序性的特点,对不完整的数据合理利用,高效查询到前K个非常有代表性的Skyline点,将查询结果展示出来。通过实验证明,所提算法有效地过滤了冗余数据,提高了查询处理的效率,可行性较高。(本文来源于《科技通报》期刊2018年07期)
孙铭[9](2018)在《基于多分类器的不完整数据的分类关键技术研究》一文中研究指出分类问题在数据挖掘、机器学习和模式识别等很多领域中都是一个基础而重要的问题。目前为止,有很多算法都可以处理分类问题。然而,它们都是面向完整数据的。不完整的数据却广泛存在于各个领域,包括社会科学、计算机视觉和生物系统。例如,问卷调查中很多用户会选择部分回应的方式,避开一些问题以保护个人隐私,这就会导致数据集不完整且存在多种缺失模式。缺失值对于大数据分析有十分消极的影响。目前的方法大致为忽略法和填补法。忽略法是将数据集中有缺失值的样本忽略,只考虑完整的样本,但这种方法会造成信息的丢失,同时如果数据集中存在大量的缺失,分类性能严重降低。而在缺少额外知识抑或数据集的特征属性之间关联不强的情况下,对缺失值的填补也不精准。因此,考虑到应用场景众多且现有解决办法不完善,不完整的数据的分类是十分重要的一个课题。本文针对这一课题,提出了一个较为新颖的思路:不对不完整数据集进行填补或者忽略缺失样本,而是直接在不完整数据集上进行操作。本文将采用集成学习的方法,将不完整数据集中的每一个完整视图视作一个训练数据集,使用针对完整数据的分类算法训练成基本分类器。当待分类元组出现时,每个基本分类器会给出一个分类结果,然后采取合理的组合方式获得最终分类决定。本文着重作出了以下贡献:(1)由于不完整数据集的完整视图数目庞大,且会影响算法的效率和有效性。本文对完整视图进行了筛选,用合适的完整视图的组合去代替全部完整视图,有效缩减完整视图的个数,在分类精度小幅度波动的情况下,提高分类的时间性能。本文首先在?2的时间内找到全部的完整视图,接着形式化定义缩减完整视图个数问题,证明了该问题是NP难的,然后针对问题提出了近似算法,并证明出近似比为ln|?|+1。对比实验验证了筛选算法的有效性。(2)由于基本分类器在最终分类决定中的地位不尽相同,本文提出了两种合理的权重分配方法区分基本分类器之间的差异。其一使用了两个明显会影响基本分类器分类性能的因素,样本个数和特征属性与类别间的相关程度。其二使用了学习的方法,更为全面,有效避免了对于影响因素的忽略,也避免了复杂的定量工作。实验表明,两种权重分配方式对于基本分类器的组合都优于投票表决法。(3)由于本文前两部分的算法都是针对于待分类元组是完整的情况,本文还提出了面向不完整的待分类元组的分类方法。考虑到待分类元组中缺失值的存在,将会使部分基本分类器不可用。本文引入了MAT结构存放训练集,使待分类元组可以迅速确定自己可使用的完整视图,同时为了避免因基本分类器个数减少而造成的分类性能降低,本文将使用Boosting的组合方式,迭代训练基本分类器,获得分类结果。本文将此算法与现有的解决办法进行了对比,在时间性能和分类性能上验证了算法的有效性。(本文来源于《哈尔滨工业大学》期刊2018-06-01)
杨钧[10](2018)在《高维不完整数据的特征选择研究》一文中研究指出在机器学习中,人们经常需要处理含有大量特征同时包含很多实例的高维数据集。对于这类数据集,存在冗余甚至干扰特征。因此,特征选择成为了机器学习中的一个研究热点,其可以选择出规模更小,表达效果更好的特征子集,既降低了机器学习算法的计算代价,又可以提高学习算法的准确率。此外,数据采集过程中的各种因素,诸如探测仪器的限制、样本破损、环境的干扰,使得采集的数据存在缺失,导致实际应用中不完整数据的大量存在。高维不完整数据成为了数据挖掘和机器学习中不可回避的问题。针对现有特征选择算法存在的问题和不足,本文从新的思维角度出发,深入研究了面向高维不完整数据的特征选择算法。首先调研了关于不完整数据处理方式和特征选择算法研究背景和发展现状,对现有的方法进行了总结,指出了存在的问题和不足。针对传统不完整数据的处理通常采用丢弃和填补的方式容易导致严重的数据偏离问题,提出一种直接在不完整数据上进行特征重要度的计算方法。该方法首先将数据矩阵根据完整度划分为3个部分,接着考虑每一个缺失值的可能性,然后采用基于概率分布和基于元组数量的合并方式,有效的完成了不完整特征重要度的计算。其次,针对现有特征选择算法在高维数据上效果不理想,提出了一种基于随机矩阵的高维数据特征选择方法。其通过将相关矩阵中符合随机矩阵预测的奇异值去除,从而得到改进后的相关矩阵和选择特征的数量,接着对改进后的相关矩阵进行奇异值分解,通过分解矩阵获得特征与类的相关性,根据特征与类的相关性和特征之间冗余性完成特征选择。此外,还提出一种特征选择优化方法,通过依次将每一个特征设为随机变量,比较其奇异值向量与原始奇异值向量的差异来进一步优化结果。最后,为了验证本文所提出方法对高维不完整数据特征选择中的有效性,本文通过在多个高维不完整数据集上进行分类实验,以分类准确率、特征选择数量和缺失率为评价指标验证了本文所提出的方法对高维不完整数据的特征选择问题上是有效的。(本文来源于《辽宁大学》期刊2018-05-01)
不完整数据集论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
阿尔茨海默病(AD)是一种进行性神经系统退行疾病,具有不可逆性,需要医生密切监测患者的病情,并根据病情发展及时调整治疗计划。研究表明,临床评分是医生进行疾病评估的最有效依据,且磁共振成像(MRI)数据也非常适合用于预测阿尔茨海默病患者的临床评分。传统研究中,学者们大多是基于单一时间点的MRI数据进行临床评分预测。提出建立一个探索MRI数据与临床评分之间关系的模型,并使用纵向MRI数据预测未来时间点的临床评分。该模型包含3个部分:首先基于相关熵正则化联合学习进行特征选择;然后基于深度多项式网络进行特征编码;最后利用支持向量回归。回归过程在两种情形下进行,情形1是使用基线数据预测未来时间点的临床评分,情形2是结合被测时间点之前的所有数据预测该时间点的临床评分。与此同时,情形2还可填补缺失评分,解决了数据的不完整问题。在情形1中,通过所提出的模型对未来5个不同时间点的临床评分进行预测,获得的平均绝对误差值为2.01、2.06、2.06、2.27、2.00以及皮尔森相关系数值为0.70、0.69、0.56、0.65、0.67。在情形2中,所提出的模型在未来4个不同时间点获得的平均绝对误差值为0.14、0.10、0.09、0.08以及皮尔森相关系数值为0.72、0.75、0.78、0.74。通过以上实验证明,所提出的回归框架不仅可准确描述MRI数据与评分之间的关系,而且可以有效地预测纵向评分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
不完整数据集论文参考文献
[1].牛明航.自适应区间的不完整数据加权聚类算法研究[D].辽宁大学.2019
[2].杨梦雅,侯雯,杨鹏,邹文斌,汪天富.基于纵向不完整数据联合深度集成回归预测阿尔茨海默病临床评分[J].中国生物医学工程学报.2019
[3].刘永楠.不完整数据上的查询处理技术[D].哈尔滨工业大学.2019
[4].李素娟.舰船通信系统重复不完整数据智能修复方法研究[J].舰船科学技术.2019
[5].钱晓东,罗彦福.基于互信息属性排序的不完整数据聚类算法[J].信息与控制.2019
[6].陈维高,朱卫纲,唐晓婧,贾鑫.不完整数据集的MFR辐射源识别方法研究[J].电子科技大学学报.2019
[7].郭素.基于众包的不完整数据Skyline查询处理研究[D].浙江大学.2019
[8].王伟贤,张禄,田贺平,陈振.不完整数据高效近似查询处理算法[J].科技通报.2018
[9].孙铭.基于多分类器的不完整数据的分类关键技术研究[D].哈尔滨工业大学.2018
[10].杨钧.高维不完整数据的特征选择研究[D].辽宁大学.2018