分类标记论文_蒋芸,肖潇,侯金泉,陈莉

导读:本文包含了分类标记论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:标记,图拉,主动,示例,卷积,特征,中医。

分类标记论文文献综述

蒋芸,肖潇,侯金泉,陈莉[1](2019)在《基于局部正、负标记相关性的k近邻多标记分类新算法》一文中研究指出在多标记学习中,每个样本都由一个实例表示,并与多个类标记相关联。现有的多标记学习算法大多是在全局利用标记相关性,即假设所有的样本共享不同类别标记之间的正相关性。然而,在实际应用中,不同的样本共享不同的标记相关性,标记间不仅存在正相关性,而且存在相互排斥的现象,即负相关性。针对这一问题,提出了基于局部正、负成对标记相关性的k近邻多标记分类算法PNLC。首先,对多标记数据的特征向量进行预处理,分别为每类标记构造对该类标记最具有判别能力的属性特征;然后,在训练阶段,PNLC算法通过所有训练样本中各样本的每个k近邻的真实标记构建标记之间的正、负局部成对相关性矩阵;最后,在测试阶段,首先得到每个测试样例的k近邻及其对应的正、负成对标记关系,利用该标记关系计算最大后验概率对测试样例进行预测。实验结果表明,PNLC算法在yeast和image数据集上的分类准确率明显优于其他常用的多标记分类算法。(本文来源于《计算机工程与科学》期刊2019年10期)

辛基梁,张佳,李绍滋,李灿东[2](2019)在《中医健康状态辨识中的多标记分类方法研究》一文中研究指出目的:探索中医健康状态辨识中的多标记分类方法。方法:采用多标记分类算法LIFT、ML-kNN、RankSVM和单标记分类算法SVM、kNN对临床1 146例数据进行机器学习和测试。结果:平均精度从高到低依次为LIFT[(84.90±1.28)%]、ML-kNN[(68.95±2.61)%]、RankSVM[(67.10±6.11)%]、SVM[(65.47±1.33)%]、kNN[(34.08±2.28)%];LIFT、RankSVM比SVM性能更优,ML-kNN比kNN性能更优。结论:多标记分类算法的性能优于单标记分类算法,证明了多标记分类算法有助于解决中医健康状态辨识问题,且几种多标记分类算法中LIFT算法性能最优。(本文来源于《中华中医药杂志》期刊2019年09期)

裴根生[3](2019)在《基于多示例多标记的多领域数据分类》一文中研究指出近年来,随着大数据和人工智能的迅速发展,标记学习成为重点研究领域之一。其中,多示例多标记学习(Multi-Instance Multi-Label Learning,MIML)作为一种新型的学习范式,拓展了多示例学习(Multi-Instance Learning,MIL)和多标记学习(Multi-Label Learning,MLL)。MIML对于现实世界中许多复杂和模糊对象具有更好的表示能力,同时示例的表达方式也更加契合对象所存在的多义性。因此,MIML学习框架成为模式识别与标记学习重点研究课题之一,众多学者提出了大量MIML分类算法,并在文本、图像、音频和生物信息等多领域数据分析处理中取得较大成功。本文将主要针对基于MIML框架进行多领域数据分类问题研究,通过对MIML的深入学习探究,实现对于MIML分类算法中退化策略算法、分类算法和端到端分类算法的改进,主要研究工作如下:(1)目前基于K-Medoids聚类退化MIML算法将各示例间视为相互独立,退化过程可能造成较多的信息丢失,且K-Medoids聚类需聚类簇K的先验知识,不同的K值对分类结果影响较大。针对该问题,提出了一种改进均值漂移算法的多示例多标记分类算法,通过带有权值且为非参数聚类算法的均值漂移退化MIML,考虑示例间的相关性,尽可能减少退化过程信息的丢失。实验进一步验证了算法的有效性。(2)传统神经网络算法需要较多的网络参数设置,在求解最优解时很有可能出现局部最优解,而无法得到全局最优解。而极限学习机(Extreme Learning Machine,ELM)是一种高效且具有优化学习算法的单隐层前馈神经网络,求解时只需设置隐藏层节点数,并随机初始化权值和偏置就可求解出全局最优解。但传统ELM算法需设置隐藏层节点数,并且需初始随机权值和偏置,易受随机值的影响导致计算结果并不稳定,采用核ELM则可以解决这一问题。因此,提出将回归核极限学习机作为基分类器的MIML分类算法,在保证分类精度的同时降低了分类的时间消耗。通过对比实验表明了算法了可靠性。(3)近年来随着计算机硬件的飞速发展,深度学习技术也得到了广泛的应用。但目前基于卷积神经网络(Convolutional Neural Networks,CNN)的MIML分类算法多使用Softmax函数进行分类,但此函数将类与类之间视为互斥事件,并不符合MIML学习框架。因此,提出将CNN网络中Softmax函数替换为ELM分类器,构造出一种端到端的图像分类算法。将所提CNN-ELM-MIML模型与原始CNN进行对比,表明所提算法的合理性。(本文来源于《安庆师范大学》期刊2019-06-17)

李村合,田程程,董玉坤[4](2019)在《基于分类器链的多示例多标记算法》一文中研究指出退化方法是求解多示例多标记学习(MIML)问题常用的求解方式,但是在退化过程中会造成标记之间的关联信息丢失。对该问题进行研究,提出OCC-MIMLSVM+分类算法,将MIMLSVM+算法与有序分类器链(OCC)方法相结合,通过对分类器进行合理组织,将标记之间的关联信息融入至算法的训练过程中,解决信息丢失问题,提高分类准确率。实验结果表明,改进算法取得了比基准多示例多标记算法更好的分类效果。(本文来源于《计算机工程与设计》期刊2019年06期)

张鹏飞,董敏周,端军红[5](2019)在《基于集成GMM聚类的少标记样本图像分类》一文中研究指出为了提高卷积神经网络训练的分类器分类准确率,往往需要大量的已标记数据,但有时已标记数据并不容易获得。针对少标记样本图像分类问题,提出基于集成GMM聚类与标签传递思想的解决方案,通过一定的规则给未标记数据赋予标签,将未标记数据转换成已标记数据用于模型的训练。在手写数字识别数据集上进行实验,结果表明新算法在少标记样本的情况下,结合集成GMM聚类的方法比只采用有标记样本训练得到的模型分类准确率有着较大提高,验证了该算法的有效性。(本文来源于《西北工业大学学报》期刊2019年03期)

侯涛文[6](2019)在《基于LDA的多标记源文本分类研究》一文中研究指出互联网技术的发展加快了大数据时代的到来,快速获取和分析大数据是当代互联网应用不可缺少的能力。而文本是数据信息的主要载体。传统监督机器学习算法需要大量专家标记数据才能训练高性能模型,而获得专家标记往往费时费力。众包系统利用群众智慧对数据进行标记,能以较低的成本对任务快速响应,因此得到了广泛的使用。但由于群众知识背景和工作能力各不相同,导致收集到的多标记存在噪声,不能直接代表正确标记。多标记源分类器是一种整合多标记的方法。文章将以提升多标记源分类器准确度和节约标记成本为目的,对多标记源分类器进行研究。将进行的主要工作有叁个方面:(1)提出了朴素贝叶斯深度加权算法用于数据分类。朴素贝叶斯(Naive Bayes)因其强独立性和特征同重要性假设,在对非均衡类样本分类时,容易将属于少数类的样本分到多数类。考虑到各个样本在分类中的不同重要程度,利用感受性曲线面积值对特征加权,实现提升算法的目的。实验结果表明,朴素贝叶斯加权算法有利于提高分类器在偏态样本中的分类准确率。(2)利用LDA((Latent Dirichlet Allocation))特征融合方法用于文本建模。多标记源在标记过程中往往受到文本主题的影响,通过融合主题模型特征和word2vec词向量特征构建文本特征,再代入高斯过程多标记源分类器进行训练,得到性能更高的模型,最终根据新文本特征推理出更准确的标记估计值。实验表明,特征融合方法能够进一步提升高斯过程多标记源分类器性能;(3)利用主动学习与多标记源分类器结合算法实现众包标记文本分类。主动学习同众包系统都具有减少成本的功能。主动学习首先利用少量标记样本初始化模型参数,然后利用适当规则挑选更有价值的样本交给人工标记,并不断迭代,直到满足终止条件。众包系统则可以为挑选样本提供人工标记渠道。同时根据主动学习思想制定合适规则,挑选出最适合标记该样本的标记源,达到成本最小化。实验证明,主动学习选取样本进行标记后训练模型,较随机抽取样本标记后训练模型,能实现更高准确度。叁种算法存在如下关系:第一个算法将作为对照组加入到后续算法的对比实验中,第叁个算法是在第二个算法上的提升,期望在保证分类器精度的条件下进一步降低文本标注的成本。(本文来源于《北京建筑大学》期刊2019-06-01)

吕庆莉[7](2019)在《基于信息增益的中医体质多标记分类方法研究》一文中研究指出目的为降低中医体质传统分类方法主观性误差,兼顾兼夹体质,提出基于信息增益的中医体质多标记分类方法。方法采用多标记方法进行中医体质分类。为解决多标记分类方法中不同特征对分类标签的影响不同的问题,通过体质分类数据计算各特征项的信息增益,计算体质分类特征对分类标签的权重,进而通过加权的多标签分类器,得出体质数据多标记分类。结果与传统判别分析法相比,基于信息增益的多标记分类方法在1-错误率(16.33%)、汉明损失(15.44%)、平均准确率(82.61%)方面均有一定优势。结论基于信息增益的多标记分类方法在保证准确率同时可兼顾兼夹体质,实现对体质特征差异性及趋同性的更好描述。(本文来源于《中国中医药信息杂志》期刊2019年06期)

李存存[8](2019)在《面向多标记分类的主动学习算法研究》一文中研究指出主动学习在机器学习、数据挖掘、模式识别等领域备受业内人士的关注,主要解决标记实例开销大的问题。主动学习方法首先使用少量已标记实例集学习分类器,然后根据实例选择算法从未标记数据中获取信息,最后由专家标注系统标记选取的实例并更新分类器。主动学习的核心问题是如何设计实例选择算法来选择质量和数量均佳的实例。目前主动学习的研究仍还集中在单标记分类问题上,多标记分类是数据分析中普遍存在的一个问题,多标记实例的标注通常比单标记实例的标注花费的时间更多、代价更高。在多标记分类问题中,如何更加精确地找出更适合分类的标记集合加入到属性空间中,这是提升多标记分类算法性能的关键。另外,已有的实例选择算法考虑噪声数据的情况较少,而且其选择策略比较单一。针对上述问题,本文从实例选择算法和多标记属性选择这两个方面展开了研究,本文贡献如下:(1)针对实例信息度量方式比较困难的问题,提出了一种基于不确定性采样的主动学习算法。首先,本文使用多个二分类的支持向量机分类器,将多标记实例的正负标记分离,正负标记值之间的距离称为分离裕度。实例选择算法将分类结果中分离裕度的值最小的实例视为不确定性高、信息丰富的实例。这里本文提出基于偏值项的分离裕度的主动学习算法,在选择实例时,使用偏置项作为衡量分离裕度的因素,选取分离裕度的值趋向于偏置项大小且非噪声的实例。其次,在此基础上,该算法使用标准差的方式度量实例的离散度情况,选取高离散度的实例。最后,通过多个多标记数据集上的实验结果证明了该算法的有效性。(2)针对分类器出现分类错误的情况下实例选择算法极有可能误选实例以及考虑标记间相关性的问题,提出了一种基于最大相关性的多标记主动学习算法。首先,使用实例与标记值之间的相关性来度量实例的不确定性,并将其与已有的最小置信度策略结合使用。其次,该算法采用改进的两层多标记模型,选择基分类器分类结果中高于阈值的标记值扩展属性空间。最后,将改进的两层多标记模型与实例选择算法综合使用,提升最终分类器的性能。同样,通过多个多标记数据集上的实验结果证明了该算法的有效性。(本文来源于《北京交通大学》期刊2019-05-01)

黄文英[9](2019)在《偏标记学习算法及其在图像分类中的应用研究》一文中研究指出传统的监督学习需要明确的监督信息,而为示例标注明确的监督信息需要耗费大量的人力和物力,甚至有的标注需要专门的人才才能完成。弱监督学习不仅不需要强监督信息,并且弱监督学习框架更加符合现实生活中的场景,因此弱监督学习框架在机器学习领域受到了广泛关注。偏标记学习是弱监督学习中的一种。在偏标记学习中,每个示例对象都有一个候选集合,该集合带有多个标签信息,其中真正的标签只有一个。偏标记学习的难点主要在以下叁个方面,第一是训练示例对应的标签信息是一个集合,而不是明确地指出其对应的真正标签。第二是候选集合中的标签存在相似性。第叁是示例与标签之间的联系很难充分利用。基于以上分析,本文提出了两个基于偏标记学习的算法。为了充分利用示例空间与标签空间之间的相似性,本文提出了一个基于低秩和标签传播的偏标记图像分类算法。该算法的创新点有叁个,首先基于流行假设充分利用了示例空间和标签空间之间的相似性。流行假设的思想是在示例空间中相似的示例在标签空间中也具有同样的相似性,因此基于流行假设能够将示例空间与标签空间联系起来。其次基于低秩表示矩阵构建示例之间的相似性。相对于基于距离度量的相似性构建方式,该算法采用的低秩表示方式能够构建全局空间并且对高维数据有更好的效果。在构建低秩表示矩阵时加入了稀疏约束,减少示例不平衡对低秩表示矩阵的影响。最后并没有以最大概率值作为对应示例的真正标签,而是将其转换成了一个多输出回归问题。由于矩阵中可能会存在消歧效果不明显的标签,所以候选标签集合中的概率值可能存在平均概率的情况。不以最大概率值做为对应示例的真正标签,减少伪正例对预测模型的影响。大量实验证明了使用低秩表示矩阵表示示例与示例之间的相关性,并且将这种相关性延伸到标签空间对分类性能有很大作用。为了突显出真正的标签,本文提出了一个基于标签最大置信度的偏标记图像分类算法。该算法主要有两个创新点,第一是在模型的损失项中增加每个示例置信度的无穷范数,突出候选标签集合中的真正示例。平均消歧策略有一个很大的弊端即消歧后的置信度矩阵中存在消歧效果不明显的示例。该算法改善平均消歧策略劣势,突出候选标签中的真正标签。第二是基于图拉普拉斯约束项充分利用示例之间的相似性。图拉普拉斯项使目标函数中的相似示例会有相似输出,使得突出的标签接近真正的标签。大量的实验结果表明,基于标签最大置信度的方法在图像分类问题上有着很好的性能。(本文来源于《北京交通大学》期刊2019-05-01)

陈霞[10](2019)在《基于样本和标记建模的弱监督分类方法研究》一文中研究指出监督式分类技术基于强监督假设,通过学习大量的、具有单一且明确的真值标记的样本来训练分类模型。尽管现有的监督式分类技术已经取得了巨大的成功,但由于数据标注过程需要耗费大量的人力和物力,且受外部环境、问题特性以及标注者自身的原因等多方面因素的制约,很多数据获取到的往往是少量的、不准确的标记。此外,真实世界中的对象普遍具有多义性,即每个样本可以同时拥有多个标记。在多义性场景下,指数规模的输出空间使得学习系统需要更加充裕的监督信息。传统的监督式分类框架在不足够的监督(即不足够的有标记样本)、不准确的监督(即不准确的标记信息)及多义的监督(即每个样本可以同时拥有多个标记)的弱监督场景下难以取得较好的效果。因此,研究弱监督场景下的分类算法具有极大的现实意义。本文围绕上述叁种弱监督场景,通过分析现有的弱监督方法的不足,分别基于半监学习技术、多标记主动学习技术与偏多标记学习技术展开研究,完成的主要工作如下:1、基于半监督学习技术解决不足够的监督的问题:由于真实世界中的样本并不总是均匀分布的,两个靠近决策边界的、拥有不同标记的样本可能会相距很近,因此很容易被错误分类。针对这一问题,我们提出一种基于聚类调整相似度的半监督分类方法SSC-CAS。该方法首先利用聚类算法探索所有未标记样本与有标记样本的结构信息,然后根据样本所属的聚类簇之间的相似度调整样本之间的相似度,使得处于决策边界处且处于不同聚类结构的样本间的相似度减小。最后,SSC-CAS在这个新构造的图上执行基于图的半监督分类。实验结果证明了这种构图方式的有效性,且SSC-CAS获得了较相关对比方法更好的分类表现。此外,大部分现有的半监督分类方法都同等对待每个样本。事实上,越靠近决策边界的样本应该获得更多的关注。基于上述情况,我们提出一种新的基于样本加权的半监督分类方法WS3C。该方法首先基于多次聚类结果衡量样本的难聚类程度与样本间的相似度。越靠近决策边界的样本越难聚类,应拥有更大的权重。然后,WS3C利用样本的难聚类程度对样本进行加权并结合样本间的相似度构建了一个流形正则化框架来预测未标记样本的标记。实验分析证明了这种样本加权方式的有效性,且WS3C具有较相关对比方法更好的分类表现。2、基于多标记主动学习解决多义的监督下不足够的监督的问题:在多义的监督场景下,样本的标注过程更加困难且代价昂贵。一个样本是否与一个标记相关取决于该样本是否包含与该标记相关的特征信息。然而,当前的主动学习方法查询一个样本标记对的相关性时,要求标注者详细审查完整个样本。事实上,对于一个相关的样本标记对,标注者可以更容易地仅通过审查待标注样本的关键的子样本来审查所查询的样本标记对的相关性,减少标注代价。基于上述情况,本文提出了基于子样本标记对查询的多标记主动学习方法CMAL。该方法首先利用不确定性、标记相关性以及标记空间稀疏性选择出最有价值的样本标记对,然后基于所选择的样本标记对迭代地选择出最可能相关的子样本标记对给专家标注。实验结果表明,在同样的成本条件下,CMAL能够获得较相关对比方法更好的分类表现。3、基于偏多标记学习解决多义的监督下不准确的监督的问题:在多义的监督的场景下,样本的标注过程更加困难,因此更容易出现噪声标记。显然,噪声标记的存在会影响分类器的分类表现。然而,当前的多标记学习方法假设已获取的标记是无噪的,研究多义的监督下不准确的监督的工作还很少。基于上述情况,本文提出一种基于矩阵分解的多标记噪声标记识别方法MF-INL。该方法首先利用矩阵分解技术分解原始的包含噪声标记的样本标记关联矩阵为两个低维的矩阵,同时保持样本在低维空间的结构信息与标记在低维空间的相关性。然后,MF-INL利用分解的两个矩阵重构样本标记关联矩阵。在该重构的关联矩阵中,关联值更低的样本标记关联更可能是噪声关联,即该标记更可能为该样本的噪声标记。实验结果证明了MF-INL识别噪声标记的有效性。为进一步提高噪声标记识别的表现与同时实现噪声标记场景下的分类器训练,本文提出一种特征诱导的偏多标记学习方法fPML。该方法通过将样本特征与标记映射到同一个低维的语义空间学习原始样本标记关联矩阵的低秩逼近,估计样本标记关联置信度,进一步识别噪声标记。特别地,fPML在识别噪声标记的同时,利用估计的样本标记关联置信度训练一个投影矩阵,将样本特征映射到标记空间,实现对未标记样本的标记预测。实验结果表明fPML较对比方法能够更有效地识别噪声标记,且在未标记样本标记预测上也获得了较对比方法更好的表现。(本文来源于《西南大学》期刊2019-03-25)

分类标记论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

目的:探索中医健康状态辨识中的多标记分类方法。方法:采用多标记分类算法LIFT、ML-kNN、RankSVM和单标记分类算法SVM、kNN对临床1 146例数据进行机器学习和测试。结果:平均精度从高到低依次为LIFT[(84.90±1.28)%]、ML-kNN[(68.95±2.61)%]、RankSVM[(67.10±6.11)%]、SVM[(65.47±1.33)%]、kNN[(34.08±2.28)%];LIFT、RankSVM比SVM性能更优,ML-kNN比kNN性能更优。结论:多标记分类算法的性能优于单标记分类算法,证明了多标记分类算法有助于解决中医健康状态辨识问题,且几种多标记分类算法中LIFT算法性能最优。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分类标记论文参考文献

[1].蒋芸,肖潇,侯金泉,陈莉.基于局部正、负标记相关性的k近邻多标记分类新算法[J].计算机工程与科学.2019

[2].辛基梁,张佳,李绍滋,李灿东.中医健康状态辨识中的多标记分类方法研究[J].中华中医药杂志.2019

[3].裴根生.基于多示例多标记的多领域数据分类[D].安庆师范大学.2019

[4].李村合,田程程,董玉坤.基于分类器链的多示例多标记算法[J].计算机工程与设计.2019

[5].张鹏飞,董敏周,端军红.基于集成GMM聚类的少标记样本图像分类[J].西北工业大学学报.2019

[6].侯涛文.基于LDA的多标记源文本分类研究[D].北京建筑大学.2019

[7].吕庆莉.基于信息增益的中医体质多标记分类方法研究[J].中国中医药信息杂志.2019

[8].李存存.面向多标记分类的主动学习算法研究[D].北京交通大学.2019

[9].黄文英.偏标记学习算法及其在图像分类中的应用研究[D].北京交通大学.2019

[10].陈霞.基于样本和标记建模的弱监督分类方法研究[D].西南大学.2019

论文知识图

标记类型分布图人工检测白线标记去除自组织过程神经网络拓扑结构框架图94葡萄糖标记的重浮力密度层DNA克隆...

标签:;  ;  ;  ;  ;  ;  ;  

分类标记论文_蒋芸,肖潇,侯金泉,陈莉
下载Doc文档

猜你喜欢