同分布论文_潘品臣,姜合,吕奕锟

导读:本文包含了同分布论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:独立,相似性,中心点,算法,定理,度量,系数。

同分布论文文献综述

潘品臣,姜合,吕奕锟[1](2019)在《一种非独立同分布下K-means算法的初始中心优化方法》一文中研究指出传统聚类算法研究都是在假设数据集的对象、属性等方面满足独立性且服从同一分布的基础上进行的.然而现实中的数据往往是非独立同分布的,即属性之间或多或少都会存在一些交互关系.传统K-means算法随机地选择初始聚类中心,对于中心点的选取比较敏感,容易陷入局部最优且准确率低. Min_max方法针对这一缺点进行了改进,但原始的和改进后的Kmeans算法都忽略了属性之间存在的交互关系.因此本文利用Pearson相关系数公式来计算属性之间的交互关系,并映射于原始数据集.同时利用双领域思想对Min_max方法进行了优化.实验结果表明该方法能够得到较高的准确率、较好的聚类效果以及相对较少的迭代次数.(本文来源于《小型微型计算机系统》期刊2019年06期)

张玉腾[2](2019)在《非独立同分布词语相关度计算方法研究》一文中研究指出词语相关度计算,即度量两个词语表达意义的近似程度。它是自然语言处理领域的一项基础性研究,对文本分类、自动问答、词义消歧、机器翻译等上层任务有着重要的影响。词语的表示学习是词语相关度计算中一项基础而核心的工作,获取高质量的词语表示是提高词语相关度计算结果的有效方式。本文试图从提高词语的表示学习质量这一角度出发进行相关研究,在非独立同分布学习理论(not independent and identically distributed learning,简写non-IID learning)的指导下,充分挖掘概念之间的耦合关系,生成高质量的概念向量,再通过概念映射将词语与概念关联起来,利用概念向量计算词语相关度,进而改善文本分类、自动问答等上层应用的效果。本文的主要工作和贡献体现在下述叁个方面:(1)针对传统的词语相关度计算方法混淆语义概念信息且忽视概念耦合关系的问题,本文提出了基于非独立同分布学习的词语概念表示方法和词语相关度计算方法。本文充分挖掘概念描述和知识网络蕴含的多种概念耦合关系,包含概念描述中的显式概念共现耦合、知识网络中的显式概念超链接耦合以及两者之间的隐式概念耦合;提出了基于non-IID的概念表示方法,以捕获概念之间显式和隐式的耦合关系,充分利用概念之间的这些耦合关系,获得更加完善的概念语义表示;通过概念映射,将词语与概念语义表示关联起来,进而提升词语相关度计算的效果。在六种不同的真实数据集上,对比七种主流的词向量方法,基于非独立同分布学习的词语概念表示方法都有大幅度的提升,其平均结果至少比基线模型高出20.4%。实验结果表明,该方法能有效地表示概念的语义信息,能够提高词语相关度的计算性能。(2)为了进一步验证基于non-IID的词语概念表示方法的性能,本文将概念向量应用到文本分类任务中,提出了基于non-IID词语表示的文本分类方法。首先利用基于non-IID的概念表示方法设计文本特征构建模块,将文本转化为密集的向量表示,为文本提供更加丰富完善的语义表示;同时也使用传统的词表示算法为文本提供普通向量表示;然后将两种向量表示连接起来,作为文本的特征表示;最后使用LIBLINEAR模型训练分类器,获得最终的文本分类结果。实验结果表明,借助于non-IID词语概念表示方法,六种传统的文本分类模型,在20NewsGroup数据集上分类精度上均得到了有效提升,其中F_1值平均提高22.8%。(3)为了进一步验证基于non-IID的词语概念表示方法的性能,本文将概念向量应用到医疗自动问答任务中,提出了基于non-IID词语表示的医疗问答方法。首先利用基于non-IID的概念表示方法设计词嵌入模块,将问答对转化为密集的向量表示,为问题句和答案句提供更加丰富完善的语义表示;然后针对中文医疗问答任务的特点,设计六种编码器,使用编码器对问答对的向量表示进行编码,以捕获句子内部词语之间的依赖关系,生成问答对的高层语义表示;最后使用余弦相似度算法计算问答对高层语义表示的距离,获得问答对之间的相似性评分,将得分最高的答案作为模型选择的答案。实验结果表明,融入基于non-IID的词语概念表示后,医疗自动问答系统的性能能够得到有效改善,在cMedQA数据集上ACC@1的最高得分达到69.85%,优于传统方法的效果。(本文来源于《齐鲁工业大学》期刊2019-05-31)

韩冰[3](2019)在《非独立同分布下的K中心点算法研究》一文中研究指出随着科技的不断发展,数据挖掘成为当下帮助用户从大量的数据中提取出有效信息的重要手段,与此同时,作为数据挖掘中重要分支的聚类分析也越来越受到各方面的关注。K-中心点算法是聚类分析中具有代表性的算法之一,克服了K-均值算法对于孤立点较为敏感的缺点,具有较强的鲁棒性,但是K-中心点算法仍在某些方面存在缺陷,例如,算法中的相似性度量大多采用距离的度量方式,这种方式均假设数据对象及属性之间是独立同分布的,但实际情况中,数据对象及属性之间是非独立同分布的,因此,K-中心点算法的相似性度量方式有待改进;除此之外,K-中心点算法本身时间复杂度较大,初始中心点的选取对算法而言尤为重要。为提高算法的聚类效果与运行效率,本文对此进行了如下改进:针对K-中心点算法的度量方式为假设数据对象及属性之间是独立同分布的缺点,本文引入了无监督学习中的名义耦合相似性计算方法,用非独立同分布计算公式对传统欧氏距离计算相似度方法进行了替换,同时,由于此公式主要计算依据为属性值的频率,但数值型数据对于频率并不敏感,因此,针对数值型数据,本文在引入公式之前,将数值型数据按属性列根据欧氏距离进行聚类与替换,设计了NI-PAM算法,使聚类效果更佳。针对NI-PAM算法初始中心点采用随机选取方式的缺陷,本文利用邻域半径来优化初始中心点的选择,根据数据对象之间的非独立同分布相似度,建立相似度矩阵,遍历矩阵,统计每一个数据对象在邻域半径内所包含其他数据对象的数量,将包含量最多的对象选为第一个初始点,然后在相似度矩阵中将此对象邻域半径内包含对象互相之间的相似度均归零,重新遍历矩阵,依次类推,直到选出k个中心点,优化后的算法提高了NI-PAM算法的运算效率。在以上改进中,提高了算法的正确率,并通过优化初始中心点提高了NI-PAM算法的运行时间,但由于引入公式的计算较为复杂,时间效率还有待提高,因此,本文重新引入了数值型数据耦合相似性计算公式,并对皮尔森相关性系数替换为了斯皮尔曼等级相关系数,设计了N-NI-PAM算法,实验证明,算法的正确率也得到了很大提高,并且运行时间大大减少。改进后的算法在UCI数据集上进行了验证,实验验证表明,NI-PAM算法与N-NI-PAM算法正确率较之欧氏距离下的K-中心点算法均得到了很大提高,且N-NI-PAM算法具有较好的运算效率。(本文来源于《齐鲁工业大学》期刊2019-05-31)

焦江丽,张雪英,李凤莲,牛壮[4](2019)在《同分布强化学习优化多决策树及其在非平衡数据集中的应用》一文中研究指出针对传统决策树在非平衡数据集分类时少数类预测性能出现偏差的问题,提出一种基于强化学习累积回报的属性优化策略即改进型同分布多决策树方法。首先通过同分布随机抽样法对非平衡数据集中的多数类样本进行随机采样,进而对各子集建立单决策树形成多个决策树,各决策树采用分类回归树算法建树,并利用强化学习累积回报机制进行属性选择策略的优化。研究结果表明:提出的基于强化学习累积回报机制的属性优化策略可有效提高少数类被正确分类的概率;同分布多决策树方法可有效提高非平衡数据集整体预测性能,且正类率和负类率的几何平均值都有所提高。(本文来源于《中南大学学报(自然科学版)》期刊2019年05期)

韩冰,姜合[5](2019)在《一种非独立同分布下针对数值型数据的PAM改进算法》一文中研究指出PAM算法是K-中心点算法中最具代表性的算法。在此算法中,相似性度量的计算方法仅假设数据对象属性之间是独立同分布,采用欧几里得距离公式来进行计算。但现实数据集中,数据对象属性之间是非独立同分布的,即它们之间都是相关联的。因此,本文针对数值型数据,在PAM算法中引入了数值型数据非独立同分布计算公式,将原本的皮尔森相关系数替换为斯皮尔曼等级相关系数,并进行了实验验证。结果显示,数值型数据非独立同分布计算公式的引入很好地提高了PAM算法的聚类精度。(本文来源于《齐鲁工业大学学报》期刊2019年02期)

任敏[6](2019)在《一类右半直线上独立同分布随机环境中的随机游动》一文中研究指出本文给出在0点以一定概率吸收和反射的右半直线上独立同分布的随机环境中的随机游动模型,讨论了模型的常返性和极限性质,计算了模型的吸收概率.(本文来源于《四川大学学报(自然科学版)》期刊2019年02期)

黄河,袁超伟[7](2018)在《非同分布高斯信号背景下基于增强能量检测的协作感知》一文中研究指出能量检测算法应用于无线通信场景中时存在信噪比(SNR)墙和噪声不确定性问题,对此,在认知无线电非同分布高斯信号背景下,提出了基于增强能量检测的协作感知算法.在低SNR条件下,给出了采用增强能量检测算法的次用户检测概率和虚警概率,并推导出达到最小总错误率的最优协作用户数表达式.理论分析和仿真实验结果表明,相对其他克服噪声不确定性的能量检测算法,所提出的算法具有更优的检测性能.(本文来源于《北京邮电大学学报》期刊2018年06期)

李真[8](2018)在《《概率论与数理统计》中定理的联系教学--以独立同分布的中心极限定理和样本均值的抽样分布定理为例》一文中研究指出独立同分布的中心极限定理和样本均值的抽样定理是《概率论与数理统计》中的两个重要定理.这两个定理都很抽象.本文探讨独立同分布的中心极限定理和样本均值的抽样分布定理的联系与区别,进行类比教学,帮助学生理解这两个定理的意义,提高应用定理解决具体问题的能力.(本文来源于《赤峰学院学报(自然科学版)》期刊2018年10期)

李会娟[9](2018)在《非独立同分布KNN分类算法研究》一文中研究指出数据挖掘是从数据中挖掘出有价值信息的过程。分类算法是数据挖掘学科的主流研究课题之一,任务是将未知类别的数据项映射到相应类别。KNN算法是分类挖掘领域应用最广泛的分类算法之一。本文针对KNN分类器进行了研究和分析,并围绕算法的不足在决策规则、相似性度量方面进行了改进。论文主要工作如下:传统KNN分类器的决策规则是在选定近邻之后,对k个近邻实例进行类别统计从而预测待测实例的类标签。显然,这种简单的统计判别方式没有有效利用近邻样本的信息。针对KNN算法决策规则的缺陷,本文引入近邻支持度和类可信度的概念以生成新的决策规则。首先,以近邻样本的相似度信息为关注点,引入近邻支持度的概念;然后,通过考虑样本分布情况来计算每个类别的类可信度。实验表明,改进的ND_KNN算法提高了分类器性能,是一种有效、稳定的分类算法。传统KNN分类算法衡量数据集中的对象间关系时,往往认为各个对象间是独立同分布的,忽略对象间的相互作用和影响。改进的CS_KNN算法基于非独立同分布思想,通过挖掘对象的特征、特征值等多层次的耦合关系来构建新的相似性函数。首先通过衡量各个特征对分类的重要程度,研究特征与类别间的非独立同分布性进而形成类特征权重;其次,利用类特征权重形成对象间的特征内非独立同分布函数;然后,分析不同特征间的影响并生成特征间非独立同分布函数;最后将对象间的特征内、特征间、特征与类别间的非独立同分布关系融合到相似性度量中,构造关联相似性规则。实验表明,与传统KNN算法相比,基于非独立同分布思想改进的CS_KNN算法分类效果有明显提高。(本文来源于《齐鲁工业大学》期刊2018-05-23)

谢青青[10](2018)在《非独立同分布下k-means聚类算法的研究》一文中研究指出聚类分析作为数据挖掘技术的一个重要分支,是对数据划分或分组的重要技术手段。在没有先验知识的情况下,聚类分析将数据对象按照一定的要求或规则划分成若干类,由于聚类分析具有很高的实际应用价值,因此成为数据挖掘研究中非常活跃的科研课题。K-means算法作为聚类分析中的经典算法已被广泛的应用在各个行业领域。但是,k-means算法同时也存在一些需要改进的地方,比如,初始中心确定的随机性,k值选择的模糊性和主观性,欧氏距离同等对待变量等。此外,目前都是在独立同分布下对数据进行处理的,但在实际应用中,数据之间并不是互不影响的独立同分布的情况,也就是说数据源的属性值、属性、对象之间存在耦合或者依赖关系。如果在算法研究中忽略了数据之间的非独立同分布性,可能会导致分析结果因为丢失重要信息而变得不准确。本文针对k-means算法存在的不足尝试从非独立同分布条件下对k-means算法进行了如下改进:针对k-means算法初始中心点选取的随机性,提出了一种新的初始中心点选取的方法,主要是基于属性之间的耦合关系出发,深度探讨数据属性之间的相关性,选取数据集中满足改进算法所设定的条件中包含耦合相似性点数目最多的样本对象作为初始中心点,利用修改后的Pearson相关系数能够更加合理的表示属性之间的相关性。针对k-means算法中相似性度量以及聚类准则函数存在的不足,提出了两点改进方法。首先是对欧氏距离存在的将数据项目不同维度的属性同等对待以及不能够区别数据属性之间的重要性等不足,提出一种基于耦合属性分析的相似性度量改进方法;其次对聚类准则函数不能够很好的处理类内分布不均的情况,提出了一种基于耦合属性分析的聚类准则函数的改进方法。以上两点改进主要是利用非独立同分布学习理论来探索对象属性之间的耦合关系,不仅仅从属性内的属性值耦合关系考虑,而且还考虑了属性之间属性值耦合关系。改进算法在多个UCI数据集上进行了实验验证,实验结果显示改进后k-means算法具有很好的稳定性和较高的准确率。(本文来源于《齐鲁工业大学》期刊2018-05-23)

同分布论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

词语相关度计算,即度量两个词语表达意义的近似程度。它是自然语言处理领域的一项基础性研究,对文本分类、自动问答、词义消歧、机器翻译等上层任务有着重要的影响。词语的表示学习是词语相关度计算中一项基础而核心的工作,获取高质量的词语表示是提高词语相关度计算结果的有效方式。本文试图从提高词语的表示学习质量这一角度出发进行相关研究,在非独立同分布学习理论(not independent and identically distributed learning,简写non-IID learning)的指导下,充分挖掘概念之间的耦合关系,生成高质量的概念向量,再通过概念映射将词语与概念关联起来,利用概念向量计算词语相关度,进而改善文本分类、自动问答等上层应用的效果。本文的主要工作和贡献体现在下述叁个方面:(1)针对传统的词语相关度计算方法混淆语义概念信息且忽视概念耦合关系的问题,本文提出了基于非独立同分布学习的词语概念表示方法和词语相关度计算方法。本文充分挖掘概念描述和知识网络蕴含的多种概念耦合关系,包含概念描述中的显式概念共现耦合、知识网络中的显式概念超链接耦合以及两者之间的隐式概念耦合;提出了基于non-IID的概念表示方法,以捕获概念之间显式和隐式的耦合关系,充分利用概念之间的这些耦合关系,获得更加完善的概念语义表示;通过概念映射,将词语与概念语义表示关联起来,进而提升词语相关度计算的效果。在六种不同的真实数据集上,对比七种主流的词向量方法,基于非独立同分布学习的词语概念表示方法都有大幅度的提升,其平均结果至少比基线模型高出20.4%。实验结果表明,该方法能有效地表示概念的语义信息,能够提高词语相关度的计算性能。(2)为了进一步验证基于non-IID的词语概念表示方法的性能,本文将概念向量应用到文本分类任务中,提出了基于non-IID词语表示的文本分类方法。首先利用基于non-IID的概念表示方法设计文本特征构建模块,将文本转化为密集的向量表示,为文本提供更加丰富完善的语义表示;同时也使用传统的词表示算法为文本提供普通向量表示;然后将两种向量表示连接起来,作为文本的特征表示;最后使用LIBLINEAR模型训练分类器,获得最终的文本分类结果。实验结果表明,借助于non-IID词语概念表示方法,六种传统的文本分类模型,在20NewsGroup数据集上分类精度上均得到了有效提升,其中F_1值平均提高22.8%。(3)为了进一步验证基于non-IID的词语概念表示方法的性能,本文将概念向量应用到医疗自动问答任务中,提出了基于non-IID词语表示的医疗问答方法。首先利用基于non-IID的概念表示方法设计词嵌入模块,将问答对转化为密集的向量表示,为问题句和答案句提供更加丰富完善的语义表示;然后针对中文医疗问答任务的特点,设计六种编码器,使用编码器对问答对的向量表示进行编码,以捕获句子内部词语之间的依赖关系,生成问答对的高层语义表示;最后使用余弦相似度算法计算问答对高层语义表示的距离,获得问答对之间的相似性评分,将得分最高的答案作为模型选择的答案。实验结果表明,融入基于non-IID的词语概念表示后,医疗自动问答系统的性能能够得到有效改善,在cMedQA数据集上ACC@1的最高得分达到69.85%,优于传统方法的效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

同分布论文参考文献

[1].潘品臣,姜合,吕奕锟.一种非独立同分布下K-means算法的初始中心优化方法[J].小型微型计算机系统.2019

[2].张玉腾.非独立同分布词语相关度计算方法研究[D].齐鲁工业大学.2019

[3].韩冰.非独立同分布下的K中心点算法研究[D].齐鲁工业大学.2019

[4].焦江丽,张雪英,李凤莲,牛壮.同分布强化学习优化多决策树及其在非平衡数据集中的应用[J].中南大学学报(自然科学版).2019

[5].韩冰,姜合.一种非独立同分布下针对数值型数据的PAM改进算法[J].齐鲁工业大学学报.2019

[6].任敏.一类右半直线上独立同分布随机环境中的随机游动[J].四川大学学报(自然科学版).2019

[7].黄河,袁超伟.非同分布高斯信号背景下基于增强能量检测的协作感知[J].北京邮电大学学报.2018

[8].李真.《概率论与数理统计》中定理的联系教学--以独立同分布的中心极限定理和样本均值的抽样分布定理为例[J].赤峰学院学报(自然科学版).2018

[9].李会娟.非独立同分布KNN分类算法研究[D].齐鲁工业大学.2018

[10].谢青青.非独立同分布下k-means聚类算法的研究[D].齐鲁工业大学.2018

论文知识图

隔水的底水式地质模型研究本究区森林冠层本章小节层高度分...四种改进水缝设计结晶器铜板截面能量传递速率的等值面:(a)能量产生(...集中式天线系统十一月采集沉积物样品中PBDEs同系物主...

标签:;  ;  ;  ;  ;  ;  ;  

同分布论文_潘品臣,姜合,吕奕锟
下载Doc文档

猜你喜欢