导读:本文包含了属性离散化论文开题报告文献综述、选题提纲参考文献,主要关键词:粗糙,属性,粒子,精度,邻域,理论,集数。
属性离散化论文文献综述写法
胡振华[1](2018)在《基于变精度粗糙集理论的多属性离散化方法研究》一文中研究指出随着机器学习、数据挖掘技术的普及,对机器学习结果的精确度要求越来越高。研究者们提出了许多学习算法,可以应用到各个领域和场景中,如非常适合分类学习的C4.5决策树算法和支持向量机算法。为提高学习效果和预测精度,作为数据挖掘和机器学习的一个重要预处理步骤,连续值属性的离散化的重要性实则非常重要。许多学习算法,如决策树,只能用于离散化的数据集,而且连续值属性的离散化使学习算法更易理解数据,并提高计算效率。当前,大多数离散化方法只考虑某一连续属性与类属性间的关系。单属性离散化方法缺乏对属性重要性的考量,离散属性的顺序大多随机决定,导致隐藏信息的丢失。单属性和多属性相结合的离散化方法可解决上述问题,其条件属性相对其他属性的重要度作为多属性评价标准,基于最小描述长度理论的信息长度为单属性评价标准。经研究验证,该离散化方法有效利用了属性重要度,提高了离散效果。单属性和多属性相结合的离散化方法的离散化停止规则是基于经典粗糙集理论中的一致性水平得到,因此存在缺点。经典粗糙集理论对集合间包含关系的定义过于严格,将大样本的多数包含也视为不一致样本,必然导致信息丢失。变精度粗糙集理论则放宽了包含关系的严格定义,引入了噪音阈值β,当不包含程度低于阈值时才说明某集合包含于另一集合。为了改进原离散方法,本文基于变精度粗糙集理论的包含关系提出不一致率,以此替换原离散化方法的离散停止准则,得到新的离散化算法。实验结果分析证明单属性和多属性相结合的离散化方法符合理论预期,有效避免了隐藏信息的丢失。本文基于变精度粗糙集理论对单属性和多属性相结合的离散化方法提出的改进使得原离散化方法的性能明显提升。基于变精度粗糙集理论虽然能够得到更合理的离散停止准则,但在计算过程中噪音阈值β值是基于经验得到的。如何通过数据集本身训练得到β值是离散化领域中值得研究的方向。(本文来源于《华中科技大学》期刊2018-12-01)
陈迎春,李鸥,孙昱[2](2018)在《基于聚类离散化和变精度邻域熵的属性约简》一文中研究指出针对传感网采集数据的不完备性,利用数据本身特点,通过定义类簇指标,提出基于改进K-means聚类算法的数据离散化方法,以减小噪声、孤立点和不完备数据集对决策识别结果产生的影响;然后,通过引入互信息熵的属性重要度度量和变精度修正系数,提出基于互信息熵的变精度邻域粗糙集属性约简启发式算法,整合变精度和邻域粗糙集的优势,在减小约简算法计算复杂度的同时提高决策系统识别精度.仿真结果表明了算法在提高决策系统识别精度和降低其计算复杂度方面的有效性,模拟环境测试进一步验证了其工程适用性.(本文来源于《控制与决策》期刊2018年08期)
曹峰,唐超,张婧[3](2017)在《一种结合二元蚁群和粗糙集的连续属性离散化算法》一文中研究指出离散化是一个重要的数据预处理过程,在规则提取、知识发现、分类等研究领域都有广泛的应用。提出一种结合二元蚁群和粗糙集的连续属性离散化算法。该算法在多维连续属性候选断点集空间上构建二元蚁群网络,通过粗糙集近似分类精度建立蚁群算法适宜度评价函数,寻找全局最优离散化断点集。通过UCI数据集验证算法的有效性,实验结果表明,该算法具有较好的离散化性能。(本文来源于《计算机科学》期刊2017年09期)
李娜[4](2017)在《基于属性离散化的贝叶斯分类算法及其应用研究》一文中研究指出朴素贝叶斯分类算法由于其简单且高效的优点成为数据挖掘十大经典算法之一,但是该算法在进行分类时假定属性间是彼此独立的。不过,在现实应用当中这类假设通常无法成立。在本文中,通过对数据预处理和减弱朴素贝叶斯算法的条件独立性假设来提高算法的分类准确率。主要研究工作如下:离散化技术是经常被用到数据预处理当中的技术。已知的数据离散化方法通常在处理不平衡数据集时表现不是非常理想。本文提出了一种新的离散化算法ICAIM算法,通过结合叁个不同离散化标准的优点来改善CAIM算法的性能。ICAIM算法提高了离散区间的质量,使离散化后的数据集的分类性能更好,尤其是不平衡数据集。同时,ICAIM算法的运行时间较CAIM算法有明显提高。隐朴素贝叶斯分类算法忽视了数据集中冗余或者无关属性对分类结果造成的不利影响,本文针对这一缺陷,提出了采用CFS算法对属性实施选取操作,选出一组最优的属性子集合。在减弱朴素贝叶斯算法的条件独立性假设的众多方法之中,属性权重法早已引起了研究者的重视。为进一步减弱条件独立性假设引发的不利影响,本文将根据各属性对分类结果的影响程度,为不同的属性赋予相应的权重。本文提出的权重获取方法不仅考虑了属性与属性间的依赖关系,而且考虑了属性与类属性间的依赖关系,使每个属性获取到的权重更加合理。现有的属性加权方法仅将学习到的属性权重纳入朴素贝叶斯分类公式中,而不将权重纳入其条件概率估计中,本文使用一种被称之为深度属性加权的方法,能够提高朴素贝叶斯模型的质量。最后把本文所提出的ICAIM和SW-HNB算法应用到冠心病中医辅助诊疗系统当中。首先通过ICAIM算法对冠心病临床数据进行离散化处理,然后再用SW-HNB算法对患者的病症分类。实验证明该系统可以有效地起到辅助诊疗的效果。(本文来源于《大连海事大学》期刊2017-05-01)
康燕茹[5](2016)在《基于连续属性离散化的属性偏序理论的知识发现》一文中研究指出计算机技术的迅猛发展和数据库系统的普遍使用,给人们提供了强有力的平台,去更好地利用信息技术进行生产,而且搜集和检索数据的能力也有显着提高。丰富多样的信息感知和采集设备引领我们步入大数据时代。然而,采用什么样的手段和技术从海量数据中发现对决策非常有价值的规则和知识,成为前沿科技亟需解决的关键问题。数据挖掘与机器学习作为处理数据的重要手段,已然成为当今研究的一个热点问题。但是,许多知识发现和数据挖掘的算法得以进行的先决条件就是所要处理的属性值是离散值,而在现实生活中得到的数据常常是连续属性,所以必须对连续属性进行离散化处理。本文通过以UCI数据集的知识发现和规则提取为基础,通过主流连续属性离散化方法的对数据集中的多维属性值进行离散化处理,并且以形式概念分析理论的形式背景的可视化表达为重要手段,运用离散化处理后的数据结果构建二值形式背景,以形式背景分层优化和属性偏序结构图生成方法为关键环节,生成不同数据集的属性偏序结构图,进行知识的规则提取,通过与数据集的分布特点及类标签来比较,对离散化方案进行评估。主要内容如下:1)建立了基于形式背景的知识表达原理的混合数据集成框架,实现各种数据在一个框架下可视化表示和基于属性偏序结构理论实现的数据挖掘。2)研究了基于优化形式背景生成偏序结构原理的知识发现数学方法,生成了基于属性覆盖对象(或者对象覆盖属性)原理的数据偏序结构图。3)针对现有离散化算法在高维数据处理中的局限性,研究了一种基于非线性降维技术的高维数据离散化方法-改进局部线性嵌入算法,实现基于连续属性离散化的属性偏序理论的知识发现。本文通过对UCI数据集的降维及离散化处理后,有着更高精度的知识,简化了复杂的知识规则,对大数据的知识规则提取及可视化有重要意义。(本文来源于《燕山大学》期刊2016-12-01)
张荣光,胡晓辉,宗永胜[6](2017)在《基于改进离散粒子群优化的连续属性离散化》一文中研究指出为了解决数据挖掘和机器学习领域中连续属性离散化问题,提出一种改进的自适应离散粒子群优化算法。将连续属性的断点集合作为离散粒子群,通过粒子间的相互作用最小化断点子集,同时引入模拟退火算法作为局部搜索策略,提高了粒子群的多样性和寻找全局最优解的能力。利用粗糙集理论中决策属性对条件属性的依赖度来衡量决策表的一致性,从而达到连续属性离散化的目的,最后采用多组数据对此算法的性能进行了检验,并与其他算法做了对比实验,实验结果表明此算法是有效的。(本文来源于《计算机工程与应用》期刊2017年18期)
董跃华,刘力[7](2016)在《基于AHTPSO的连续属性离散化算法》一文中研究指出针对粗糙集不能较好地处理连续型属性的问题,结合粗糙集理论和粒子群算法,提出基于自适应混合禁忌搜索粒子群的连续属性离散化算法。首先,该算法通过对参数的自适应更新操作,从而避免了粒子群出现早熟的现象;然后将粒子群当代得到的全局最优粒子送入禁忌算法中进行优化,有效地提升了算法的局部探索能力;在兼顾决策表系统一致性的同时,将划分的断点初始化为一群随机粒子,通过改进后粒子群的自我迭代得到最佳的离散化划分点。实验结果表明,与其他结合粗糙集的离散化算法相比,该算法具有更高的规则分类精度和较少的离散化断点个数,对连续属性的离散化效果较好。(本文来源于《计算机工程与科学》期刊2016年05期)
李萍,储亚伟,范敏[8](2015)在《基于粒度商的连续属性离散化方法》一文中研究指出连续数值属性的离散化是粒计算理论应用的重要步骤,提出粒度商的连续属性离散化方法。通过给出粒度商的概念,根据粒度商的大小来选取合适的区间粒,从而达到连续属性离散化的目的。最后给出实例分析,说明该算法的有效可行性。(本文来源于《阜阳师范学院学报(自然科学版)》期刊2015年04期)
黄巧云[9](2015)在《一种监督型的连续属性离散化算法的研究》一文中研究指出提出一种监督型的连续属性离散化算法,利用云模型实现对属性区域的划分,以此引入边界的模糊性;再利用属性对类别的决定作用,判断是否对云模型进行归并操作,从而选择出合适的云模型集合,以实现离散化的目的。实验结果表明,该算法具有较少的离散化区间数以及较高的分类精度。(本文来源于《叁明学院学报》期刊2015年04期)
陶刚,闫永刚,刘俊,邹娇[10](2015)在《基于改进的SOM聚类连续属性离散化算法》一文中研究指出为解决连续属性值的离散化问题,提出了一种改进的自组织映射(SOM)聚类离散化算法,该算法利用SOM实现初始聚类,界定聚类上限;之后以初始聚类中心为样本,通过层次方法的平衡迭代规约和聚类(BIRCH)层次聚类算法进行二次聚类,解决聚类数虚高问题并确定离散断点集;最后对断点集任一样本找出其所在维各聚类中心的最近邻,以此作为离散微调依据。实验结果表明,该算法在断点集数(轮廓系数提升75%)及离散精度方面(不相容度更近似0)均优于传统SOM聚类离散化算法,可有效解决大样本、高维数据离散化问题。(本文来源于《计算机应用》期刊2015年S1期)
属性离散化论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
针对传感网采集数据的不完备性,利用数据本身特点,通过定义类簇指标,提出基于改进K-means聚类算法的数据离散化方法,以减小噪声、孤立点和不完备数据集对决策识别结果产生的影响;然后,通过引入互信息熵的属性重要度度量和变精度修正系数,提出基于互信息熵的变精度邻域粗糙集属性约简启发式算法,整合变精度和邻域粗糙集的优势,在减小约简算法计算复杂度的同时提高决策系统识别精度.仿真结果表明了算法在提高决策系统识别精度和降低其计算复杂度方面的有效性,模拟环境测试进一步验证了其工程适用性.
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
属性离散化论文参考文献
[1].胡振华.基于变精度粗糙集理论的多属性离散化方法研究[D].华中科技大学.2018
[2].陈迎春,李鸥,孙昱.基于聚类离散化和变精度邻域熵的属性约简[J].控制与决策.2018
[3].曹峰,唐超,张婧.一种结合二元蚁群和粗糙集的连续属性离散化算法[J].计算机科学.2017
[4].李娜.基于属性离散化的贝叶斯分类算法及其应用研究[D].大连海事大学.2017
[5].康燕茹.基于连续属性离散化的属性偏序理论的知识发现[D].燕山大学.2016
[6].张荣光,胡晓辉,宗永胜.基于改进离散粒子群优化的连续属性离散化[J].计算机工程与应用.2017
[7].董跃华,刘力.基于AHTPSO的连续属性离散化算法[J].计算机工程与科学.2016
[8].李萍,储亚伟,范敏.基于粒度商的连续属性离散化方法[J].阜阳师范学院学报(自然科学版).2015
[9].黄巧云.一种监督型的连续属性离散化算法的研究[J].叁明学院学报.2015
[10].陶刚,闫永刚,刘俊,邹娇.基于改进的SOM聚类连续属性离散化算法[J].计算机应用.2015