分词技术论文-周寅,黄鋆

分词技术论文-周寅,黄鋆

导读:本文包含了分词技术论文开题报告文献综述及选题提纲参考文献,主要关键词:回溯法,中文分词,自然语言处理

分词技术论文文献综述

周寅,黄鋆[1](2019)在《基于回溯法的中文分词技术》一文中研究指出本文基于经典算法回溯法,对中文分词进行在研究与比对,发现我们的实验结果优于当下的双向LSTM模型、以及CRF条件随机场的数据,将中文分词难点问题未登录词和歧义词的识别提高了1%。(本文来源于《电子技术与软件工程》期刊2019年21期)

曾小芹[2](2019)在《基于Python的中文结巴分词技术实现》一文中研究指出中文分词是自然语言处理的重要预处理操作。随着非结构化文本的大量产生,中文分词技术的研究尤为重要。结巴分词适用于中文分词,具有完整的技术路线,且Python语言提供了结巴分词接口。使用Python实现中文结巴分词算法简单,准确率较高,能够为自然语言处理提供重要保障。(本文来源于《信息与电脑(理论版)》期刊2019年18期)

刘桂梅[3](2019)在《应用中文分词技术的网络推广管理系统的设计与实现》一文中研究指出为满足某企业内部网络推广管理需求,系统从管理者的角度出发,以引流客户为目的,研究B2B模式下网络推广人员的发帖行为需求,确定系统的主要模块为发帖管理、关键词管理、网帖样本和公司网站管理。利用中文分词技术,基于产品关键词实现快速生成网帖标题和网帖正文,保存可复用的网帖段落,以供推广人员发布精准的网帖。(本文来源于《电子商务》期刊2019年09期)

祝永志,荆静[4](2019)在《基于Python语言的中文分词技术的研究》一文中研究指出Python作为一种解释性高级编程语言,已经深入大数据、人工智能等热门领域。Python在数据科学领域具有广泛的应用,比如Python爬虫、数据挖掘等等。将连续的字序列划分为具有一定规范的词序列的过程称为分词。在英文中,空格是单词间的分界符,然而中文比较复杂。一般来说对字、句子和段落的划分比较简单,但中文中词的划分没有明显的标志,所以对中文文本进行分词的难度较大。运用Python爬虫对网页数据进行抓取作为实验文本数据,使用python强大的分词库jieba对中文文本进行分词处理。对分词结果分别采用TF-IDF算法和TextRank算法进行提取关键词,实验结果明显优于基于词频的分词算法。最后采用词云的方式对关键词进行展现,使得分词结果一目了然。(本文来源于《通信技术》期刊2019年07期)

范庆春[5](2019)在《基于中文分词技术的文本相似度检测研究》一文中研究指出针对本科生的毕业选题做相似性检查困难且有较多遗漏等问题,采用自然语言处理和集合运算的方法来计算选题相似度,在阈值29%的情况下得到平均相似度为38%的结果。该方法同样适用于不同专业选题查重工作中,具有较好的实际应用价值。(本文来源于《池州学院学报》期刊2019年03期)

杨光豹,杨丰赫,毛贵军[6](2019)在《基于分组hash与变长匹配的中文分词技术》一文中研究指出中文分词是海量中文信息处理的基础任务,分词的准确性与分词速度是最为重要的。但是现有技术在分词时,准确性与分词速度却是无法调和的。为了提高中文分词的速度,同时又不因缩短初始字符串长度造成准确性降低,提出使用正则表达式进行变长字符串的截取与对词库进行分组散列的技术。通过理论分析,该技术在时间复杂度上从原来的o(n*n)下降到o(n),在精确度上又以句子长度作为动态变化的初始字符串长度,从而避免长词的丢失,保证了分词的准确性不受损失。(本文来源于《计算机时代》期刊2019年04期)

冯俐[7](2018)在《中文分词技术综述》一文中研究指出通过对CNKI检索得到的关于中文分词的文献进行统计和分析,发现逐年度研究发文情况,研究的项目支持情况,发文机构分布和研究主题等统计结果,综述关于中文分词的算法、歧义词、未登录词和分词系统的相关研究内容,总结统计文献表现出的研究发展趋势。(本文来源于《现代计算机(专业版)》期刊2018年34期)

张新阳,张梅,马文,程永新[8](2018)在《基于数据用语智能分词技术的数据关联方法》一文中研究指出当前数据资产梳理以及数据标准建立过程中,对其中所遇到的数据命名不统一、中文语义复杂、难以建立数据关联等难点问题进行分析,提出了一套基于中文智能分词及大数据字符串分析技术的数据用语标准建立方法以及建立数据关联的方法。通过将该方法应用的数据资产管理项目中,实现了对某企业45套业务系统,10万多张表、70余万数据字段以及数百个业务接口的全自动梳理,建立了跨业务系统的数据标准体系和数据关联地图,为企业的数据资产进一步分析、挖掘、变现提供了有利支撑。(本文来源于《科技传播》期刊2018年22期)

李健龙,王盼卿,韩琪宇[9](2018)在《面向军事领域的中文分词技术研究》一文中研究指出在分词模型跨领域分词时,其性能会有明显的下降。由于标注军队遗留系统开发文档语料的工作比较复杂,本文提出n-gram与词典相结合的中文分词领域自适应方法。该方法通过提取目标语料的n-gram特征训练适应特征领域的分词模型,然后利用领域词典对分词结果进行逆向最大匹配的校正。实验结果表明,在军队遗留系统相关文档语料上,该方法训练的分词模型将F值提高了12. 4%。(本文来源于《计算机与现代化》期刊2018年11期)

徐晓芳[10](2018)在《基于条件随机场的中文分词技术的研究与实现》一文中研究指出随着人工智能的发展,机器人逐渐进入人们的日常生活。在人机交互的过程中,自然语言处理被广泛应用。中文分词,作为自然语言处理的基础技术,也是当今人工智能领域研究的热点之一。目前公开的中文分词算法针对特定领域的分词效果不佳,语义理解偏差较大。本文针对特定使用场景——政务领域,提出一种针对条件随机场模型(Conditional Random Field,CRF)的改进算法,来提高中文分词的正确率和召回率。首先,本文对叁种主流分词方法进行介绍。在比较各自优缺点的基础上,选取条件随机场作为本文的分词模型。针对当前中文分词研究中存在的技术难点,设计了中文分词的总体流程。其次,针对现有分词预处理方式中词性缺失的问题,提出了一种词性词位标记方式,引入参数对重点词性进行标注。针对条件随机场,提出了一种改进的特征模板,对常用特征进行提取的同时,加入了复合一元特征信息,提高未登录词(Out Of Vocabulary,OOV)的识别能力。然后,将随机梯度下降法(Stochastic Gradient Descent,SGD)应用于条件随机场的训练过程中,提出了一种基于特征频率自适应的方法,提高了模型训练的收敛速度。针对模型预测算法对于词性词位标记的适用问题,本文提出了一种改进的维特比算法(Viterbi)。在后续处理部分,使用基于Tire树的逆向最大匹配算法进行歧义发现。对于发现的歧义,提出了叁种消歧方法。最后,利用JAVA语言实现了本文设计的中文分词系统。针对实际应用场景,搜集并构建了针对政务领域的语料库,进行了测试,并对测试结果进行了分析。通过和主流分词工具的比较,对系统的有效性和实用性进行了验证。(本文来源于《南京邮电大学》期刊2018-11-14)

分词技术论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

中文分词是自然语言处理的重要预处理操作。随着非结构化文本的大量产生,中文分词技术的研究尤为重要。结巴分词适用于中文分词,具有完整的技术路线,且Python语言提供了结巴分词接口。使用Python实现中文结巴分词算法简单,准确率较高,能够为自然语言处理提供重要保障。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

分词技术论文参考文献

[1].周寅,黄鋆.基于回溯法的中文分词技术[J].电子技术与软件工程.2019

[2].曾小芹.基于Python的中文结巴分词技术实现[J].信息与电脑(理论版).2019

[3].刘桂梅.应用中文分词技术的网络推广管理系统的设计与实现[J].电子商务.2019

[4].祝永志,荆静.基于Python语言的中文分词技术的研究[J].通信技术.2019

[5].范庆春.基于中文分词技术的文本相似度检测研究[J].池州学院学报.2019

[6].杨光豹,杨丰赫,毛贵军.基于分组hash与变长匹配的中文分词技术[J].计算机时代.2019

[7].冯俐.中文分词技术综述[J].现代计算机(专业版).2018

[8].张新阳,张梅,马文,程永新.基于数据用语智能分词技术的数据关联方法[J].科技传播.2018

[9].李健龙,王盼卿,韩琪宇.面向军事领域的中文分词技术研究[J].计算机与现代化.2018

[10].徐晓芳.基于条件随机场的中文分词技术的研究与实现[D].南京邮电大学.2018

标签:;  ;  ;  

分词技术论文-周寅,黄鋆
下载Doc文档

猜你喜欢