导读:本文包含了自动标引论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:词表,概念,专利,主题,爬虫,语义,字符串。
自动标引论文文献综述
陈博,陈建龙[1](2019)在《基于文本挖掘和可视化技术的主题自动标引方法——以《英雄格萨尔》为例》一文中研究指出[目的/意义]基于文本挖掘技术自动发现更具代表性的文献内容主题词,通过定位主题词在章节中的具体位置,并基于可视化技术进行主题标引,帮助读者直观高效发现文献主题间的潜在关系。[方法/过程]基于文本挖掘技术深入文献内容层挖掘主题词,并利用可视化工具直观呈现所获信息,在此基础上尝试构建可视化主题自动标引系统,并在格萨尔领域的多个主题中对该系统的自动标引效果进行验证。[结果/结论]研究结果显示,该标引方法在格萨尔领域实现了文献内容级的可视化主题自动标引,快速精准地定位到章节、段落和句子。标引相关信息获取过程直观可视,并且具有交互性,可提升用户体验和参与度。文章以《英雄格萨尔》为例完成系统验证,但该标引方法技术本身无领域限定,可应用于其他领域的文献。(本文来源于《现代情报》期刊2019年08期)
马曲立[2](2019)在《船舶资料快速批量着录系统文本自动标引研究》一文中研究指出为了自动、高效地数字化处理船舶设计、制造和维修过程中所生成的海量资料——图纸和文件,对数字化处理过程中的关键技术——着录进行了研究,提出了快速批量着录的概念,并采用数据库技术构建了快速批量着录系统。针对快速批量着录系统中的瓶颈技术——文本自动标引,结合船舶资料的特点和规律,提出并实现了基于统计原理的位置权重方法,有效地提高了文本自动标引的效率和准确度。在此基础上,研制出数字化处理平台,实现船舶资料扫描、识别、着录、输出、共享和管理等功能。(本文来源于《舰船科学技术》期刊2019年13期)
周昆[3](2019)在《开放域党建信息自动获取及智能标引系统的设计与实现》一文中研究指出“互联网+党建”概念提出以来,互联网上党建领域信息日趋丰富。面向党建领域的垂直检索系统可以为党建用户提供专业准确且低冗余的领域内容。构建党建垂直领域检索系统需要以党建领域文本作为基础数据。同时为了提升党建领域垂直检索系统的检索质量,需要将党建领域文本中包含的关键信息标引出来,作为检索结果展示给用户,使返回结果更加直观。如果可以挖掘出用户检索内容中潜在的实体关系,并结合从党建数据中标记出的实体关系对待检索内容进行处理,则可以改善党建领域垂直检索系统中用户查询内容与检索结果之间的相关性。为解决党建领域文本数据的采集问题,本文设计了开放域党建信息自动获取系统,提出了基于语义关系与链接结构、用于预测未访问链接主题相关性的链接主题相关度预测算法,并基于此算法实现了党建领域语义相关度主题爬虫,用于采集互联网开放域中的党建信息。根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词向量综合HowNet计算页面的语义相关度,结合URL的结构信息预测未访问URL链指的页面与党建领域的相关程度。最终将系统采集到的党建领域数据作为构建党建领域垂直搜索引擎的基础数据。为解决目前缺少用于提升党建领域垂直检索系统检索结果的直观度、改善检索结果相关性的标注数据的问题,并兼顾批量数据更新场景下数据的完整性与时效性,本文设计了一种用于综合考虑历史全量数据与实时增量数据查询更新处理过程的系统架构,并基于该架构实现了智能标引系统。该系统抽取采集到的党建语料中的关键词与实体间关系作为标引结果,并将其应用到党建领域检索的结果展示中;将全量数据处理与流数据处理结合,综合考虑了标注结果的完整性与时效性。开放域党建信息自动获取及智能标引系统能够解决党建信息采集以及标注问题,并在性能以及准确性上进行了一定验证。(本文来源于《中国科学院大学(中国科学院沈阳计算技术研究所)》期刊2019-06-01)
江华丽,曹祺,陈刚[4](2019)在《政府公开信息自动标引的设计与实现》一文中研究指出目前政府信息公开主要依据《中华人民共和国政府信息公开条例》,但站在用户视角,需要根据不同的使用场景进行适配,因此对公文进行自动化标引具有重要意义。本文基于自然语言处理技术,通过词频、词性和词义的实验和分析,提炼公文标题中的范式,对国务院1969—2018年的4 388条公文进行自动化标引。其中以地域关键词和行业关键词为例进行标引,标引后提炼相关关键词可以供相关渠道进行搜索和二次加工。本文主要处理标题的标引,尚未对全文进行标引。(本文来源于《数字图书馆论坛》期刊2019年01期)
邹中华[5](2019)在《专利密集型产业研究中的自动标引系统》一文中研究指出对海量专利进行标引从而找到每件专利和国民经济行业的对应关系是专利密集型产业研究中最关键的环节。详细阐述了数据清洗、机读分类号数据格式、机读分类号到国际专利分类号的格式转换,在此基础上实现了专利自动标引系统,可对海量专利进行快速、批量化的自动标引。结果表明,该系统很好的满足了专利密集型产业研究项目的需求。(本文来源于《科技和产业》期刊2019年01期)
王静,姜鹏[6](2017)在《自动标引系统比较分析》一文中研究指出随着信息资源的迅速增长,对高性能自动标引系统的需要迫在眉睫。选取了4个自动标引系统,即清华同方自动标引系统、ST_index自动标引系统、生物医学文献自动标引系统(MTI)以及STKOS西文科技文献自动标注软件,对其自动标引流程进行了概括和梳理,并分别从词表、分准率、是否基于全文、相似文献推荐主题词等角度进行了对比分析,并提出了相关建议。(本文来源于《图书情报导刊》期刊2017年09期)
张立荣[7](2017)在《汉语自动标引算法的设计及其在网络舆情监控中的应用》一文中研究指出随着计算机技术和通信技术的飞速发展,网络舆情分析监控工作也就显得愈发重要。及时对网络舆情进行分析监控,防范误导性舆论造成社会危害,把握和保障正确舆论的前进导向,成为目前各级政府部门急需解决的现实问题。在舆情分析中,汉语自动标引算法在生成关键词云、自动摘要、事件自动跟踪等功能上起到了关键支撑作用。因此,对汉语自动标引算法进行研究有学术研究价值和实际应用意义。本文提出了一种基于主题概念的汉语自动标引算法,通过构建文章模型并结合各种优化方法,提取代表文章主要内容的关键词,并将该算法应用于网络舆情监控系统中。主要工作如下:1)在自动分词算法方面,以最大匹配算法为基础,提出了一种经过改进的最大匹配自动分词算法。为提高自动分词算法的切分精度,提出了基于词典的共现串最长匹配的改进算法和基于统计学和汉语学规则的未登录词过滤算法,实现了未登录词的正确识别切分。经实验验证,该算法能够很好满足系统需求。2)在主题词标引算法方面,融合了基于词频和词长的主题词初始权值计算、基于位置的主题词权值加权和基于词跨度的主题词权值加权算法,结合舆情监测系统的应用实际,提出了基于融合多方法的主题词标引算法。经实验验证,该算法的适应性比较强,既能适用于少量关键词的精确标引,也能应用在需要多个关键词的应用环境。3)在近义概念归并方面,提出了基于Word2Vec近义概念归并算法,利用Word2Vec训练的词向量对候选关键词进行近义概念的合并。经实验验证,该算法有效减少了标引结果中概念相近或者重复的问题。最后,本文将提出的汉语自动标引算法作为关键词提取模块应用到了舆情监控系统中。(本文来源于《河北科技大学》期刊2017-05-01)
李军莲,王序文,夏光辉,冀玉静[8](2017)在《面向文献主题自动标引的通用概念表建设》一文中研究指出[目的/意义]针对英文文献主题自动标引任务中通用概念过度标引的问题,拟基于STKOS超级科技词表构建适用于理、工、农、医多个领域的英文通用概念表,用于有效过滤通用概念,降低标引噪音,提高文献主题自动标引的质量。[方法/过程]设计多维特征概念通用度计算算法,通过计算概念通用度自动遴选STKOS超级科技词表中的候选通用概念,结合专家审核,构建具有较好适用性的英文通用概念表。[结果/结论]初步建成的通用概念表概念总量2782个(含某一领域通用与多领域通用),其中典型通用概念366个,能较好体现概念通用性的强弱程度及领域差异。经应用测试,可有效降低通用概念对文献主题自动标引的噪音影响。(本文来源于《情报理论与实践》期刊2017年04期)
侯修洲,黄延红[9](2017)在《基于CrossRef数据库的参考文献自动加工及XML标引方法》一文中研究指出为了提升参考文献的自动化加工水平和准确率,通过编写VBA(Visual Basic for Applications)程序,利用HTTPS协议自动获取参考文献的DOI信息,进一步利用获取的DOI信息从CrossR ef、PubM ed和ADS数据库挖掘出文献的元数据信息,并按照期刊的具体格式规范文后参考文献的加工和XML信息标引。经测试,运行VBA程序后,每50条参考文献只需5 min即可完成解析和文献加工,大大提升了编辑效率和准确率。认为对参考文献的体例和各数据库的API接口熟练掌握和使用是程序运行成功的关键。(本文来源于《编辑学报》期刊2017年01期)
李千驹,李思达,刘建毅[10](2016)在《一种基于知识组织的关键词自动标引方法》一文中研究指出针对人工标引中存在的问题,提出了关键词自动标引应在增量、组合、排序叁个方面对人工标引的结果加以优化。以"核反应堆工程"领域的期刊论文为语料开展实证研究,通过引入知识组织工具,利用字符串模式匹配法自动抽取候选词,按照比例归一化方法赋权值,设置一定的入口条件,以获取足量、优质、有序的标引词。实验结果表明,利用该方法进行关键词自动标引,有助于提高关键词标引的质量。(本文来源于《情报科学》期刊2016年11期)
自动标引论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
为了自动、高效地数字化处理船舶设计、制造和维修过程中所生成的海量资料——图纸和文件,对数字化处理过程中的关键技术——着录进行了研究,提出了快速批量着录的概念,并采用数据库技术构建了快速批量着录系统。针对快速批量着录系统中的瓶颈技术——文本自动标引,结合船舶资料的特点和规律,提出并实现了基于统计原理的位置权重方法,有效地提高了文本自动标引的效率和准确度。在此基础上,研制出数字化处理平台,实现船舶资料扫描、识别、着录、输出、共享和管理等功能。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
自动标引论文参考文献
[1].陈博,陈建龙.基于文本挖掘和可视化技术的主题自动标引方法——以《英雄格萨尔》为例[J].现代情报.2019
[2].马曲立.船舶资料快速批量着录系统文本自动标引研究[J].舰船科学技术.2019
[3].周昆.开放域党建信息自动获取及智能标引系统的设计与实现[D].中国科学院大学(中国科学院沈阳计算技术研究所).2019
[4].江华丽,曹祺,陈刚.政府公开信息自动标引的设计与实现[J].数字图书馆论坛.2019
[5].邹中华.专利密集型产业研究中的自动标引系统[J].科技和产业.2019
[6].王静,姜鹏.自动标引系统比较分析[J].图书情报导刊.2017
[7].张立荣.汉语自动标引算法的设计及其在网络舆情监控中的应用[D].河北科技大学.2017
[8].李军莲,王序文,夏光辉,冀玉静.面向文献主题自动标引的通用概念表建设[J].情报理论与实践.2017
[9].侯修洲,黄延红.基于CrossRef数据库的参考文献自动加工及XML标引方法[J].编辑学报.2017
[10].李千驹,李思达,刘建毅.一种基于知识组织的关键词自动标引方法[J].情报科学.2016