邻近分类论文-鞠冬彬,赵宪佳

邻近分类论文-鞠冬彬,赵宪佳

导读:本文包含了邻近分类论文开题报告文献综述及选题提纲参考文献,主要关键词:KNN最邻近算法,文本分类,余弦相似度,类间分布不均

邻近分类论文文献综述

鞠冬彬,赵宪佳[1](2018)在《一种改进的最邻近分类算法》一文中研究指出K最邻近算法(K-nearest neighbor,KNN)是一种无参数、分类效果显着、简单的经典分类算法,但是实际的训练样本经常存在类与类之间分布不均的现象,造成实验结果的偏差。针对这个问题,进行基于密度改进KNN算法。实验结果表明,改进的分类算法在分类的准确率平均提高了3.3%,召回率平均提高1.6%,F1值均值提高2.4%。(本文来源于《信息通信》期刊2018年12期)

吕超,杨超,李仁发[2](2018)在《基于CNN与词语邻近特征的情感分类模型》一文中研究指出基于卷积神经网络(CNN)的方法在情感分类任务中得到广泛应用,该方法使用词向量作为网络的输入,但是,在卷积过程中每个词向量只能表征一个单词,并不蕴含上下文信息,导致了信息传递连续性的降低。为此,构建一种基于词语邻近特征的CNN模型,在卷积过程中让每个词向量携带邻近词语的特征,既保证信息传递的连续性,也保证词向量在局部范围内的序列性。实验结果表明,在COAE2014(二分类)和COAE2015(叁分类)的情感分类任务上,该模型的准确率分别达到89.43%和85.61%,验证了其可行性和高效性。(本文来源于《计算机工程》期刊2018年05期)

MAIRA,ANIS[3](2018)在《基于邻近重采样和分类器排序的信用卡欺诈检测中不平衡数据研究》一文中研究指出信用卡交易的普遍化,导致全球信用卡交易欺诈愈发严重,每年造成的损失高达数十亿美元。有效的信用卡欺诈检测算法可以有效地降低财务风险和金融风险。这种算法在很大程度上依赖于机器学习和数据挖掘技术,但由于信用卡交易数据分布并不均匀,使得设计欺诈检测系统具有挑战性。这种非静态分布使得正常的信用卡交易数据远多于欺诈交易数据,一般称之为不平衡数据。这种不均衡的数据分布通常会导致分类器被多数类(合法交易)数据所淹没,并且会因为不能预测少类数据(欺诈性交易)而失去预测功能。为解决这个问题,一种可能的解决方案是在数据级使用预处理技术。预处理技术是数据挖掘任务的关键步骤,处理后的数据直接应用于分类技术从而建立预测模型。预处理过程包括数据清洗,数据集成,数据变换,数据重采样等。本文主要从数据清洗和数据重采样两个方面进行研究。噪声数据指存在异常变化或错误的数据,会严重影响数据分类性能。重采样则是用于产生构建预测模型的训练数据,预测模型的质量很大程度上取决于在模型的训练中使用什么样的样本。重采样技术通过减少多数类(欠采样)或增加少数类(过采样)来产生均衡的训练集,通过这样的平衡训练集可以建立性能更高的预测模型。现有的大量研究都致力于研究不均衡数据的欠采样或过采样技术,主要分为随机抽样和固定抽样。随机技术通过随机重新采样数据,而固定抽样根据数据分布特征减少或复制数据。然而,这些传统技术在发挥优势的同时,也会危害分类器的性能,导致多数类的潜在信息消除或生成大量精确的小类副本导致分类器过拟合问题。同样,固定抽样因为没有去除噪声样本,导致关键数据被分类器忽略,例如靠近决策边界区域的数据。为克服随机抽样和固定抽样的缺点,本文提出了新的重采样方法,并描述了一种从数据中去除噪声样本的方法,以提高分类器的预测精度。本文的目标是提出能够克服现有缺点的重采样新方法,即i)消除最相似模式并保持数据原始分布的新型欠采样方法,ii)避免生成属于少数类实例相似副本的新型过采样方法。为此,本文使用了一种以马氏距离为中心的新的相似性测量方法。这种相似性测量与传统的最近邻度量不同:新方法使用以数据为中心的方法来寻找关键样本,而其他固定重采样技术则使用以数据质心为中心的协方差矩阵进行相似性度量。此外,本文在两个层面上对多数类进行消除,即处于边界上和边界外的样本。类似地,采用两步法对少数类进行过采样,并根据他们的邻近度和学习难度给样本赋予权重。这样,在决策域附近可以产生更多样本来提高少数类的预测精度。根据ROC曲线(AUC),F值和G均值指标进行检验分类器性能,新的重采样方法是可靠的,在处理具有高召回率的不均衡信用卡数据是有效的。分类算法应用于信用卡欺诈检测已有数十年,信用卡欺诈数据分布不平衡导致分类准确率下降,并且各种算法在不同的度量指标下表现迥异。由于不同的性能评价方法会产生不同的评价结果,对这些分类算法排序是相当繁琐的。信用卡欺诈数据与非静态失衡比率具有内在的不平衡性,分类器可能不能给出满意的结果。现有研究提出了很多对这些分类器进行排序方法。本文提出了一个框架,旨在寻找类别失衡对分类器性能的影响,并根据它们的偏度水平进行排序。本文使用叁种多目标决策(MCDM)方法对分类器性能从好到坏进行排序。结果表明,根据数据分布选择合适的分类器有助于提高欺诈交易行为捕获率。(本文来源于《电子科技大学》期刊2018-04-30)

郭庆胜,魏智威,王勇,王琳[4](2017)在《特征分类与邻近图相结合的建筑物群空间分布特征提取方法》一文中研究指出建筑物群综合过程中需要对建筑物群空间分布特征进行认知和识别。本文在分析国内外相关研究的基础上,从描述建筑物空间特征的大量指标中,利用主成份分析方法,总结并提出了有代表性的建筑物空间特征指标集:凸包面积、紧密度IPQ指标、边数和最小面积外接矩形方向,并基于这些指标研究了建筑物群的分类。在利用最小生成树邻近图(MST)划分建筑物空间子群时,考虑了建筑物成群与所处地理环境(河流和道路等因素)的关系。另外,基于最邻近图(NNG)、MST、相对邻近图(RNG)和Gabriel图(GG)4种建筑物群邻近图,提出了自动识别具有特定空间排列建筑物子群的方法,并比较分析了识别结果的影响因素和可用性。最后,选择北京某地区建筑物群为试验对象,实现了对建筑物群的分类和空间聚类,并提取了其中直线型空间排列的建筑物子群。(本文来源于《测绘学报》期刊2017年05期)

余慧娟[5](2017)在《邻域分析与邻近分析在建筑分类中的应用》一文中研究指出城镇建筑的分类信息是人口统计和经济学等建模的主要输入参变量。从遥感数据自动提取建筑物信息,对地图更新、城市建模、城镇增长分析和变迁监测等应用领域具有重要意义,是遥感与摄影测量领域的研究热点与难点。虽然随着航空领域技术的成熟和各种高分辨率卫星传感器的推出,拍摄的地面影像质量越来越高,但研究表明,建筑分类的难度并未随着影像分辨率的增高而减小。这是因为建筑所用材料有限,在遥感图像呈现的波谱特征相似,难以区分,再加上建筑结构不以类别而设计,因而在图像上也不能以图斑形状识别不同类型的建筑。目前,大多数研究只是将所有建筑类别归为不透水表面的一部分从城市下垫面中分割,或是分为建筑类与非建筑类(如道路、水泥地等),或是在某个特定场景中,提取具有典型特征的一类建筑(如坍塌建筑区、金融区)。为解决上述难题,实现多建筑类别自动提取,本文提出在城镇遥感图像的建筑分类中加入波谱-位置联合分析(Spectral Location Combined Analysis,SLCA)和对象-场景关联分析(Object Scene Correlation Analysis,OSCA),以改善分类精度。SLCA属于基于像素和邻域的分析。考虑到同类元素不仅在特征空间聚集,而且也在地理空间聚集的特性,设计空间密度描述符,将这种特性以邻域密度的形式赋予单个像元,因而SLCA也可被称为邻域分析。OSCA属于基于对象的分析。它通过把相邻对象的关联程度量化为对象关联描述符,将目标周围的场景信息加入分类过程。由于OSCA主要分析相邻对象的邻近程度,所以也可将其称为邻近分析。为检验两种算法的有效性与普适性,本文选取了上海地区的6幅试验影像,包括3幅彩红外航片及3幅真彩色合成影像;时间段为2000年至2015年。使用由空间密度描述符、场景关联描述符与常规描述符(如NDVI)一同构建分类特征空间,对遥感图像分类。对比试验表明,当建筑分为厂房、低矮民居、多层住宅小区和高层建筑,4类时,相较于仅使用常规描述符,使用上述两种分析算法的全局精度平均提高了 11.37%。本文选用BP神经网络完成分类任务,利用输出的隶属度矩阵,对分类结果解模糊和做分类后处理,可使全局精度平均上升3.28%。(本文来源于《华东师范大学》期刊2017-05-01)

吕松宇[6](2016)在《我国重庆及邻近地区叁窝蛛属蜘蛛分类研究(蜘蛛目:卵形蛛科)》一文中研究指出本文主要对我国重庆及邻近地区的卵形蛛科叁窝属蜘蛛进行分类研究。叁窝蛛属蜘蛛是一类体型极小的蜘蛛,主要生活在森林落叶层等隐蔽生境中。在查阅大量国内外文献基础上,整理和鉴定馆藏叁窝蛛属蜘蛛的标本;全文共报告了15个新种,包括:贝湾叁窝蛛Trilacuna beiwan sp.nov,赤水叁窝蛛Trilacuna chishui sp.nov,簇毛叁窝蛛Trilacuna congeata sp.nov,大塘叁窝蛛Trilacuna datang sp.nov,福贡叁窝蛛Trilacuna fugong sp.nov,贡山叁窝蛛Trilacuna gongshan sp.nov,宽阔水叁窝蛛Trilacuna kuankuoshui sp.nov,宽带叁窝蛛Trilacuna latizona sp.nov,粗刺叁窝蛛Trilacuna setulasa sp.nov,四面山叁窝蛛Trilacuna simianshan sp.nov,天坑叁窝蛛Trilacuna tiankengensis sp.nov,文峰叁窝蛛Trilacuna wenfeng sp.nov,五合叁窝蛛Trilacuna wuhe sp.nov,小黑山叁窝蛛Trilacuna xiaoheishan sp.nov,新平叁窝蛛Trilacuna xinping sp.nov;以及2个已知种:角叁窝蛛Trilacuna angularis Tong&Li,2007,耙叁窝蛛Trilacuna rastrum Tong&Li,2007,对全部物种进行了详细的形态描述,提供照片334张,编制了中国叁窝属蜘蛛雄蛛分种检索表;并制作了中国叁窝蛛属蜘蛛的地理分布图。根据初步的鉴定结果,可以预见该属蜘蛛在我国西南地区有广泛的分布。研究标本均保存在沈阳师范大学蛛形学研究室。(本文来源于《沈阳师范大学》期刊2016-05-20)

吴静[7](2015)在《基于类平均距离的最邻近分类算法设计》一文中研究指出针对最邻近分类算法,提出了一个改进的分类算法。在不需要确定K值,不需要对距离进行排序就可以预测测试对象所属类型的分类。(本文来源于《信息通信》期刊2015年05期)

Almuqati,abdulmohsen,naif,a[8](2015)在《基于K-邻近和朴素贝叶斯的文本分类系统设计与实现》一文中研究指出随着信息技术的发展,互联网已成为人们获取信息的主要途径,如何快速的在众多信息资源中找到自己需要的信息,成为当前一个亟待解决的问题。互联网上的信息大部分是文本数据,而文本自动分类可以有效的组织和管理文本数据,因此具有重要的研究意义和应用价值。本文详细分析了中文文本分类的主要过程,包括文本预处理、文本表示、特征选择、分类器构建和分类器性能评估。在文本表示方面,本文重点介绍了向量空间模型,在特征选择方面,本文给出了互信息、信息增益、2?统计量等常用的特征选择方法,分类算法是分类系统的核心,本文介绍了决策树算法、K-邻近分类算法、朴素贝叶斯分类算法和支持向量机分类算法。本文重点分析了K-邻近分类算法和朴素贝叶斯算法,并使用C++实现了基于K-邻近分类算法的分类器、基于多重伯努利模型的分类器和基于多项式模型的分类器。对于K-邻近分类器,本文讨论了如何确定K值,如何根据最近的K个文档决定测试文档类别等相关问题。对于朴素贝叶斯分类算法,本文引入了平滑技术,防止计算概率时出现零概率的情况。为了提高分类的效率和精度,本文还实现了基于文档频率的特征选取方法。最终将各功能模块结合在一起构成了一个完整的中文文本分类系统。通过对系统的大量对比实验表明:K-邻近分类算法在K-值等于5时具有最好的分类性能,并随着K值增加,性能在降低;多项式模型相比较其他两个分类模型在文本分类训练语料上具有最好的分类性能;伯努利模型的分类性能在这叁者中最差。(本文来源于《武汉理工大学》期刊2015-04-01)

陈洪举,刘光兴[9](2014)在《长江口及邻近海域浮游桡足类分类多样性研究》一文中研究指出利用2003年6月和2006年6月在长江口及邻近海域进行的2次大面调查所采集的浮游桡足类网采样品,并结合前人的研究,综合整理了长江口及邻近海域的浮游桡足类种名录,分析了桡足类的种类组成,并采用分类多样性指数(Δ)、分类差异指数(Δ*)、平均分类差异指数(Δ+)和分类差异变异指数(Λ+)对长江口及邻近海域浮游桡足类的分类多样性进行了研究。结果表明:长江口及其邻近海域浮游桡足类有222种,隶属于4目,33科,70属;其中2003年夏季共记录到浮游桡足类72种,2006年夏季102种。根据长江口及邻近海域浮游桡足类总名录,计算了其平均分类差异指数(Δ+)和分类差异变异指数(Λ+)的理论平均值及95%置信漏斗曲线。其平均分类差异指数的理论平均值为84.9,高于2003年6月和2006年6月研究水域的平均分类差异指数的平均值。该研究可为长江口及其邻近海域浮游桡足类多样性动态研究提供基础资料,并为同类型水域的相关研究提供借鉴。(本文来源于《中国海洋大学学报(自然科学版)》期刊2014年12期)

李磊[10](2014)在《顾及形状和邻近关系的水体分层细分类技术研究》一文中研究指出目前,科技部国家遥感中心发布了《全球生态环境遥感监测2012年度报告》,该报告依托国家高技术研究发展计划(863计划)地球观测与导航技术领域的相关研究成果,利用不同尺度的遥感影像数据,形成全球2010年陆表水域数据集。该数据集只反映了陆表水单一个体的空间分布,无法表达细化类型河流和湖泊的变化趋势。为此,本文提出了叁个筛选条件,分别是顾及先验知识、顾及邻近关系和顾及水体形状。利用先验知识过滤掉信息已知的水体,利用邻近关系筛选掉在搜索范围内的水体,利用水体形状分离出形态相近的水体,叁种关系相辅相成,共同完成水体细分类。最终利用格网迭加方法分析得出本文提出的方法精度满足分类要求,具有很强的适用性。(本文来源于《吉林大学》期刊2014-05-01)

邻近分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

基于卷积神经网络(CNN)的方法在情感分类任务中得到广泛应用,该方法使用词向量作为网络的输入,但是,在卷积过程中每个词向量只能表征一个单词,并不蕴含上下文信息,导致了信息传递连续性的降低。为此,构建一种基于词语邻近特征的CNN模型,在卷积过程中让每个词向量携带邻近词语的特征,既保证信息传递的连续性,也保证词向量在局部范围内的序列性。实验结果表明,在COAE2014(二分类)和COAE2015(叁分类)的情感分类任务上,该模型的准确率分别达到89.43%和85.61%,验证了其可行性和高效性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

邻近分类论文参考文献

[1].鞠冬彬,赵宪佳.一种改进的最邻近分类算法[J].信息通信.2018

[2].吕超,杨超,李仁发.基于CNN与词语邻近特征的情感分类模型[J].计算机工程.2018

[3].MAIRA,ANIS.基于邻近重采样和分类器排序的信用卡欺诈检测中不平衡数据研究[D].电子科技大学.2018

[4].郭庆胜,魏智威,王勇,王琳.特征分类与邻近图相结合的建筑物群空间分布特征提取方法[J].测绘学报.2017

[5].余慧娟.邻域分析与邻近分析在建筑分类中的应用[D].华东师范大学.2017

[6].吕松宇.我国重庆及邻近地区叁窝蛛属蜘蛛分类研究(蜘蛛目:卵形蛛科)[D].沈阳师范大学.2016

[7].吴静.基于类平均距离的最邻近分类算法设计[J].信息通信.2015

[8].Almuqati,abdulmohsen,naif,a.基于K-邻近和朴素贝叶斯的文本分类系统设计与实现[D].武汉理工大学.2015

[9].陈洪举,刘光兴.长江口及邻近海域浮游桡足类分类多样性研究[J].中国海洋大学学报(自然科学版).2014

[10].李磊.顾及形状和邻近关系的水体分层细分类技术研究[D].吉林大学.2014

标签:;  ;  ;  ;  

邻近分类论文-鞠冬彬,赵宪佳
下载Doc文档

猜你喜欢