导读:本文包含了文献自动分类论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文献,特征,语义,文本,数字图书馆,类型,卷积。
文献自动分类论文文献综述
李湘东,高凡,李悠海[1](2018)在《共通语义空间下的跨文献类型文本自动分类研究》一文中研究指出【目的】解决不同文献类型文本之间因写作风格和用词习惯不同而产生的语义差异问题。【方法】选取同时出现在两个不同文献类型文本集合中的领域无关特征和只在其中某一个集合中出现的领域相关特征,利用领域无关特征,对分属两个集合的领域相关特征构建双向图并进行谱聚类,关联表达类似语义的领域相关特征,产生由聚类特征定义的共通语义空间。【结果】实验结果表明,与传统的文本自动分类方法相比,本文方法的分类性能提高了3.0%-6.9%。【局限】构建共通语义空间时,需要大量与待分类文本属于同领域的语料。【结论】共通语义空间能够对不同文献类型的数字资源进行有效整合。(本文来源于《数据分析与知识发现》期刊2018年09期)
郭利敏[2](2017)在《基于卷积神经网络的文献自动分类研究》一文中研究指出人工智能技术的蓬勃发展,驱动着文献自动分类由基于规则的分类向基于机器学习的方向发展。文章在对深度学习概述的基础上,将卷积神经网络引入到了文献自动分类,构建了基于题名、关键词的多层次卷积神经网络模型,使之能够根据文献的题名和关键词自动给出中图分类号。通过在Tensor Flow平台上的深度学习模型,利用《全国报刊索引》约170万条记录进行模型训练,并对7000多篇待加工的文献做中图法分类预测,其在生产情况下一级分类准确率为75.39%,四级准确率为57.61%。当置信度为0.9时,一级正确率为43.98%,错误率为1.96%,四级正确率为25.66%,四级错误率为5.11%。证明该模型有着较低的错误率,可为《全国报刊索引》分类流程的半自动化提供帮助,解决存在的编目人员紧缺、加工质量和效率下降等问题。(本文来源于《图书与情报》期刊2017年06期)
李湘东,阮涛,刘康[3](2017)在《基于维基百科的多种类型文献自动分类研究》一文中研究指出【目的】通过基于维基百科的特征扩展解决由于不同类型文献而产生的特征不匹配等问题,以提高文本分类效果。【方法】在特征扩展之前,对TF-IDF加以改进,提出并使用一种新的特征选择方法 CDFmax-IDF获得候选词集;在使用维基百科进行特征扩展时,通过分别计算直接链接关系、类别关系、间接链接关系叁类词语间关系并进行融合得到词语间的语义相关度实现特征扩展;针对扩展得到的特征,提出一种改进的LDA概率主题模型w LDA模型进行文本建模。【结果】本文提出的方法分别在朴素贝叶斯、KNN和SVM叁种分类器上实现分类,其marco-F1和micro-F1分别提升1.6%-2.8%和1.4%-2.7%。【局限】尚未考虑特征词本身及特征词间的相互联系,比如特征词本身的词性、出现在单篇文档中的位置、特征词间的共现关系等因素对特征词权重的影响。【结论】通过多种对比研究证明了使用基于维基百科的特征扩展方法对特征词扩展的有效性,提高了多种类型文献的自动分类效果。(本文来源于《数据分析与知识发现》期刊2017年10期)
刘康[4](2017)在《基于维基百科的多种类型文献自动分类研究》一文中研究指出随着互联网的逐渐普及,这些新兴的网络文本资源以极快的速度增长,这导致传统的手工分类方法由于效率较低,难以及时、有效地对这些网络数字资源进行合理地分类管理,因此必须利用自动文本分类技术来对其进行分类组织。而当前的自动文本分类技术往往研究的是针对来自同种文献类型的文本资源,而数字图书馆作为一种新型图书馆,其面临的待分类整理的文献来自图书、期刊、网页等等多种领域且属于多种类型,目前针对多种文献类型的自动分类研究还有待完善,所以研究改进针对多种文献类型的自动分类算法对数字图书馆的成长与发展能起到显着的推动作用。本文通过介绍与分析当前文本分类方面的相关研究及主要技术,提出了一种通过基于维基百科的特征扩展来提高针对不同类型文献分类效果的分类方法。针对由不同文献类型所造成的特征不匹配问题,本文认为通过第叁方语料库可以有效地将原本不匹配的特征词进行关联,从而解决在特征词不匹配的情形下无法对不同类型文本间进行语义相关度计算的问题。一方面可以丰富当前待分类文本的语义特征,与由不同类型文献训练来得到的分类器产生相匹配特征,同时还可以解决在文本分类问题中普遍存在的特征稀疏等问题。本文主要进行的研究内容如下:(1)本文以互联网上的文本内容爆炸式增长为背景,论述未来数字图书馆面对以几何级数增加的网络文本分类管理困难的问题,引出了多种类型文献自动分类技术研究的必要性。继而本文提出的通过特征扩展解决上述问题的思路,并通过论述与分析当前相关研究的成果与进展来论证本文提出的文本分类方法的可行性与适用性。(2)本研究提出了一种基于特征扩展的多种类型文献文本分类方法,其中特征扩展操作是消除不同类型文献自动分类时文本间语义差异的核心步骤。而在进行特征扩展前需要从训练文本中提取一部分特征词作为特征扩展候选词集。本研究在论述传统特征选择方法的不足并举例说明其缺点的基础上,继而提出对其进行改进的原理与方法,并通过计算表明新的特征选择方法确实能解决原有不足。最后,本文使用改进的特征选择方法进行特征扩展候选词集的提取,并通过实验对比证明该方法的有效性。(3)为解决对不同类型文献间进行自动分类时遇到的特征不匹配等问题,本文提出一种基于特征扩展的文本分类方法,使用维基百科计算的语义相关度来准确衡量特征词之间的相关程度。在对待分类文本完成特征扩展之后,本文使用LDA主题模型对数据进行表示建模,但传统的LDA模型不能正常地对带权特征词进行建模,故而本文又对LDA模型进行改进,提出一种加权LDA模型使其能对带权特征词进行同样的建模与求解,同时由于特征词被赋予了不同权重,所以也提高了LDA模型本身的精度和准确性。(本文来源于《武汉大学》期刊2017-05-01)
李湘东,刘康,丁丛,高凡[5](2016)在《基于《知网》的多种类型文献混合自动分类研究》一文中研究指出【目的】解决由于不同类型文献而产生的特征不匹配等问题,提高待分类文本的分类效果。【方法】使用与待分类文本属于不同文献类型的文本作为语料库的训练集,引入第叁方资源《知网》进行语义特征扩展。【结果】利用该方法在网页、图书、非学术性期刊、学术性期刊4种类型文献上进行分类实验,与未经过扩展的分类方法相比,分类准确率提高1.2%至11.0%。【局限】未对每一种文献类型都使用公开语料进行测试,因此本文方法的通用性和实验结果的客观性有待进一步检验。【结论】实验结果表明,该方法具有一定的可行性和实用性,在不同程度上可以消除不同类型文献之间的语义差异,从语料库构建和特征扩展两个途径提高文本自动分类的分类效果。(本文来源于《现代图书情报技术》期刊2016年02期)
巴志超,朱世伟,于俊凤,魏墨济[6](2015)在《基于语义扩展的数字文献自动分类方法研究》一文中研究指出针对图书、期刊论文等数字文献文本特征较少而导致特征向量语义表达不够准确、分类效果差的问题,本文提出一种基于特征语义扩展的数字文献分类方法。该方法首先利用TF-IDF方法获取对数字文献文本表示能力较强、具有较高TF-IDF值的核心特征词;其次分别借助知网(Hownet)语义词典以及开放知识库维基百科(Wikipedia)对核心特征词集进行语义概念的扩展,以构建维度较低、语义丰富的概念向量空间;最后采用Max Ent、SVM等多种算法构造分类器实现对数字文献的自动分类。实验结果表明:相比传统基于特征选择的短文本分类方法,该方法能有效地实现对短文本特征的语义扩展,提高数字文献分类的分类性能。(本文来源于《现代情报》期刊2015年09期)
李湘东,胡逸泉,黄莉[7](2015)在《采用LDA主题模型的多种类型文献混合自动分类研究》一文中研究指出探索对多种类型文献进行混合分类组织时LDA主题模型的可行性及优越性。以图书、期刊、网页等不同类型的馆藏文献作为实验对象,分别采用LDA主题模型与VSM模型对实验材料进行建模,采用SVM算法实现文本混合自动分类。仿真实验表明:LDA主题模型相对VSM模型具有一定优势,混合自动分类准确率最大差距达19.9%;图书与学术性期刊、网页与非学术性期刊之间的混合分类效果较好,分类准确率可达72%以上。实验证明LDA主题模型对实现多种类型文献统一组织具有较高的可行性和适用性。(本文来源于《图书馆论坛》期刊2015年01期)
李湘东,胡逸泉,巴志超,黄莉[8](2014)在《数字图书馆多种类型文献混合自动分类研究》一文中研究指出探索数字图书馆的图书、期刊、网页等不同类型的馆藏文献进行分类组织时,多种类型文献单独及混合自动分类的特点。采用KNN等分类算法对多种类型文献进行分类实验并分析比较。仿真实验表明:随着实验文本数增加,各种类型文献的单独自动分类准确率有2%至7.8%不等的提升。图书与学术性期刊、网页与非学术性期刊之间的混合分类效果较好,分类准确率可达到85%以上;对多种类型文献实现基于自动分类的统一组织具有较高的可行性。(本文来源于《图书馆杂志》期刊2014年11期)
王方,阮梅花,朱海刚,熊燕,缪有刚[9](2013)在《基于向量空间模型的科技文献自动分类研究》一文中研究指出提出一种基于向量空间模型的科技文献自动分类方法。首先构建分类代表文本,计算单文本与分类代表文本之间的相似度;然后利用训练集计算出分类归属度,以判断某一文本分类的可能性,实现科技文献的自动分类。以3个学科的文献为例,验证该方法的可用性。(本文来源于《情报探索》期刊2013年12期)
王效岳,白如江,王晓笛,祝娜[10](2013)在《海量网络学术文献自动分类系统》一文中研究指出随着Internet的发展,互联网上的学术文献数量呈指数增长,很难为科研工作者所利用,因此亟需一种方法对海量的网络学术文献进行自动的搜集、整理、分类。在前期充分的实验论证后,设计实现一个海量网络学术文献自动分类系统,该系统使用模块化设计,包括学术文献自动抓取模块、学术文献词-文档矩阵处理模块、本体集成模块以及基于语义驱动的分类模块。实验证明,该系统可以有效地完成海量学术文献的自动抓取、处理和分类工作。(本文来源于《图书情报工作》期刊2013年16期)
文献自动分类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
人工智能技术的蓬勃发展,驱动着文献自动分类由基于规则的分类向基于机器学习的方向发展。文章在对深度学习概述的基础上,将卷积神经网络引入到了文献自动分类,构建了基于题名、关键词的多层次卷积神经网络模型,使之能够根据文献的题名和关键词自动给出中图分类号。通过在Tensor Flow平台上的深度学习模型,利用《全国报刊索引》约170万条记录进行模型训练,并对7000多篇待加工的文献做中图法分类预测,其在生产情况下一级分类准确率为75.39%,四级准确率为57.61%。当置信度为0.9时,一级正确率为43.98%,错误率为1.96%,四级正确率为25.66%,四级错误率为5.11%。证明该模型有着较低的错误率,可为《全国报刊索引》分类流程的半自动化提供帮助,解决存在的编目人员紧缺、加工质量和效率下降等问题。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文献自动分类论文参考文献
[1].李湘东,高凡,李悠海.共通语义空间下的跨文献类型文本自动分类研究[J].数据分析与知识发现.2018
[2].郭利敏.基于卷积神经网络的文献自动分类研究[J].图书与情报.2017
[3].李湘东,阮涛,刘康.基于维基百科的多种类型文献自动分类研究[J].数据分析与知识发现.2017
[4].刘康.基于维基百科的多种类型文献自动分类研究[D].武汉大学.2017
[5].李湘东,刘康,丁丛,高凡.基于《知网》的多种类型文献混合自动分类研究[J].现代图书情报技术.2016
[6].巴志超,朱世伟,于俊凤,魏墨济.基于语义扩展的数字文献自动分类方法研究[J].现代情报.2015
[7].李湘东,胡逸泉,黄莉.采用LDA主题模型的多种类型文献混合自动分类研究[J].图书馆论坛.2015
[8].李湘东,胡逸泉,巴志超,黄莉.数字图书馆多种类型文献混合自动分类研究[J].图书馆杂志.2014
[9].王方,阮梅花,朱海刚,熊燕,缪有刚.基于向量空间模型的科技文献自动分类研究[J].情报探索.2013
[10].王效岳,白如江,王晓笛,祝娜.海量网络学术文献自动分类系统[J].图书情报工作.2013