文本统计论文_管江红

导读:本文包含了文本统计论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:文本,机器翻译,词频,因子,语料库,特征,主题。

文本统计论文文献综述

管江红[1](2019)在《基于χ~2统计量的不良文本过滤特征选择方法》一文中研究指出针对现有以χ~2统计量为基础的特征选择方法在不良文本过滤过程中效果欠佳的问题,利用双层分类对特征选择方法进行改良,提出一种不良文本过滤特征选择方法。首先通过改良逆文档频率来区分特征项在所属类别类内与其他类别之间的分布差别;其次,引入逆类别频率弥补抑制强度;最后,加入逆上层类别频率,清晰划分具有较高相似度的某两类二层类别。所改良的特征选择方法能够弥补现有χ~2统计量在类内/类间特征项分布情况判别能力的缺陷,将其应用于不良文本过滤过程,能够充分贴合不良文本过滤过程的特征选择需求。通过对比评估指标的结果,表明所提方法在不良文本过滤领域具有更好的效果。(本文来源于《现代电子技术》期刊2019年21期)

蒋海蛟,牟琛[2](2019)在《人类命运共同体理念的海外传播分析——基于对叁家国际主流报刊的数据统计和文本分析》一文中研究指出一、研究背景自人类命运共同体理念提出以来,习近平总书记多次倡导构建人类命运共同体。2017年10月,习近平总书记在党的十九大报告中指出,"我们呼吁,各国人民同心协力,构建人类命运共同体,建设持久和平、普遍安全、共同繁荣、开放包容、清洁美丽的世界"。2019年4月27日,习近平总书记在第二届"一带一路"国际合作高峰论坛上再次倡导构建人类命运共同体。作为解决全球治理难题的中国方案,构建人类命运共同体势在必行。构建人类命运共(本文来源于《对外传播》期刊2019年08期)

程慧玲[3](2019)在《基于python的文本挖掘应用——以米9用户评论的词频统计为例》一文中研究指出随着互联网发展,数据的产生与存储无处不在,基于用户的行为数据分析对商家及消费者都具有重要意义。文章主要通过八爪鱼实现京东商城小米9用户评论的抓取,利用python进行文本数据挖掘及分析。通过导入文本数据建立语料库、并进行中文分词、词频统计、生成词云过程实现小米9用户评价的词频统计分析,得出用户对手机评价的侧重点,为商城用户及商家提供一定的决策建议。(本文来源于《青年与社会》期刊2019年20期)

张海彬[4](2019)在《贝叶斯统计在文本挖掘的若干研究》一文中研究指出随着信息时代的发展,越来越多非结构化的文本信息不断出现,我们需要新的工具来整理、搜索和理解这些文本信息,以便获取有价值的信息。文本挖掘(text mining)是解决这一系列问题的有效工具。在文本挖掘中,最常使用的是文本分类(Text classification)。文本分类是文本挖掘中有监督的学习过程,目的是基于文档内容将文档分配到一个或者多个预定义类别。由于文本信息构造复杂性、变化多样性和高维性,这给文本分类任务有效地提取文本特征带来了极大的挑战。概率主题模型(probabilistic topic models)是文本挖掘中提取文本特征的有效工具。主要是通过贝叶斯统计方法发现文本中的隐藏语义结构,进而获取有效的特征。因此,文本分类和概率主题模型是文本挖掘中非常有意义的研究课题。本文不仅关注文本分类,并探索了基于贝叶斯非参数的概率主题模型在文本分类中特征表示及其特征选择,主要工作如下:(1)波利亚罐子(Polya urn)模型是广泛应用于统计和文本挖掘的基本模型,大多数训练模型的算法都非常缓慢和复杂,因此通常很难适应大数据集。本文对波利亚罐子模型的极大似然估计(MLE)提出了一种新的极大极小MM算法,其中替代函数是通过简单的凸函数构造的。同时分析了 MM算法的收敛性,推导了非同分布观测的相应MLE的渐近正态性。同时比较了这种新的MM算法的与牛顿法和其他MM算法的性能。我们把波利亚罐子模型应用于文本分类的模型,并与经典的文本分类方法做了对比。(2)从词与词可能存在天然的内在关联角度,提出了一个基于分层狄利克雷过程(HDP)的图主题模型(GTM)。分层狄利克雷过程使得选择的主题数量变得灵活,打破了先前主题数量需要被给定的限制,而且图挖掘主题模型消除了“词袋”的假设并且考虑了文本的图结构。基于分层狄利克雷过程的图主题模型结合利用了两者的特性。我们用变分推断(variatioal inference)方法来进行后验推断,并分析了这种算法的收敛性。基于分层狄利克雷过程的图挖掘主题模型可以发现文本数据中隐藏的更多信息,也极大的提高了文本分类的效率和准确率。(3)从自然语言的实证研究中可以看出,单词的频率遵循幂律分布,经典统计模型无法捕获此属性。Pitman-Yor过程(PYP)是一个贝叶斯非参数模型,它可以生成幂律生成分布,并可用于模拟具有潜在无限数量的数据。它已广泛应用于概率主题建模。然而,使用PYP的现有概率主题模型很少考虑主题之间的关系。隐马尔可夫模型(HMM)是用于建模主题之间关系的最流行的成功模型之一。我们提出的方法构建了一个将HMM与Pitman-Yor Priors相结合的概率主题模型,并通过使用变分贝叶斯(VB)方法进行后验推断,并把这个模型与相关的模型在文本分类上对做了对比。(4)从文本的构造角度,提出了一个基于分层Pitman-Yor过程的句子主题模型。这个主题模型考虑了经典主题模型经常忽略的句子信息,能够弥补主题模型“词袋”的假设的不足。因为分层Pitman-yor没有截棍(stick-breaking)表示形式,这里变分贝叶斯(VB)方法不再适用推断后验分布,为此我们探索了 Gibbs抽样方法来推断后验分布。我们将基于分层Pitman-Yor过程的句子主题模型应用到主题建模以及文本分类上,并与经典的主题模型做了对比。本文的结论和方法丰富了贝叶斯非参数统计在主题模型中的研究,同时有助于提高文本分类的效果。(本文来源于《华东师范大学》期刊2019-05-01)

王露瑶,张涛,陈才,朱安琥,罗启明[5](2019)在《基于卡方统计改进的TF-IDF的文本分类的研究》一文中研究指出TF-IDF算法作为最常见的特征权重计算方法被广泛使用。传统TF-IDF特征提取方法在文本分类任务中缺乏对类之间分布差异的体现。基于此种情况,立足于传统TF-IDF算法中根据词频来选择特征词的特性,本文提出一种新的基于卡方统计的特征词提取算法并通过改进后的新方法对文本分类模型进行评估。实验结果表明,新方法在查准率、查全率、F1值和ROC_AUC等评估结果上较传统特征提取方法有明显优化。(本文来源于《电子世界》期刊2019年06期)

任晓玲,于敏[6](2019)在《义务教育阶段校园欺凌事件的特点、原因与解决对策研究——基于2014年1月——2017年4月媒体文本的统计分析》一文中研究指出频发的校园欺凌事件不仅威胁学生、儿童的身心健康,严重影响学校育人功能的发挥,同时也给社会带来危害。通过对媒体文本进行统计发现,当前校园欺凌事件中施暴者以团伙作案为主;女生欺凌事件增多;初中阶段是校园欺凌事件发生的高危阶段;东部地区发生校园欺凌事件较多;琐事纠纷、莫名纠纷、情感纠纷是造成校园欺凌的主要原因;操场、宿舍、卫生间是校园欺凌事件发生的主要集中地;网络欺凌成了新现象。亟待推进反校园欺凌法制建设,营造良好的社会环境;家校合作构建完善的校园欺凌防治预案;加强儿童、青少年的防范意识,提升自我保护力。(本文来源于《通化师范学院学报》期刊2019年03期)

周江萌[7](2019)在《小型英语影视语料库字幕文本的词汇统计分析》一文中研究指出英语影视字幕文本有着其独特的文体特征。文内借助语料库方法,对自建的英语影视语料库字幕文本的词汇进行了统计分析,发现纪录片、电影与电视剧都有着各自独特的词汇特征,其主要表现在词汇密度、词长、句长、主题词与四六级词表覆盖等方面。(本文来源于《智库时代》期刊2019年11期)

马欣欣,林克[8](2019)在《大文本数据快速分析统计理论与算法》一文中研究指出在我国电力信息化快速发展的背景下,有大量的网络文本数据在电力系统中产生,这就在一定程度上增加了信息资源数量。其中,这些海量数据绝大多数属于无用信息,不存在研究价值。而其大规模的数据积累,却导致处理传统文本工作繁琐。为此,在数据繁杂的条件下,快速而又精准地捕捉目标数据,再对其进行相应的分析和处理,最终获得具有高价值密度的信息数据意义重大。本发明属于一种大数据的数据采集、过滤、统计的算法。通过对大文本数据文件做有效切割,实现对数据的并发高效分析,然后按照业务需求将分析结果汇总,呈现出有价值的数据。(本文来源于《电子元器件与信息技术》期刊2019年01期)

陈伟鸿,林伟[9](2018)在《文本分类中卡方统计特征选择算法的改进》一文中研究指出本文针对传统CHI特征选择算法存在的缺陷,引入了频度因子、类内分布均匀因子以及修正因子进行改进,兼顾词频因素以及数据集不平衡情况,筛选出在指定类中出现频率大且分布均匀的特征词项。实验结果表明,结合SVM方法,相比于传统卡方统计特征提取的分类效果,改进后卡方统计方法提取的特征值能够有效地提高文本分类的准确度,证明了改进后卡方统计算法的可行性。(本文来源于《有线电视技术》期刊2018年12期)

林茜[10](2018)在《用于统计机器翻译训练的评论性文本的英汉翻译策略》一文中研究指出统计机器翻译是机器翻译中的常见机制,可用于专业性较高、任务量大的翻译项目。然而,在为统计机器翻译输入训练语料的过程中,常常由于结构不易于机器学习,造成机器翻译训练的效率低下,最终导致统计机器翻译结果不理想。本文以某海外购物网站的买家评论项目为例,通过分析统计机器翻译的机械性、语境制约有限和二度模仿等特征,以及统计机器翻译的训练方式,提出译者在翻译用于统计机器翻译训练的评论性文本时,应当生产可重复使用的标准化文本,并考虑统计机器翻译的限制。(本文来源于《上海外国语大学》期刊2018-12-01)

文本统计论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

一、研究背景自人类命运共同体理念提出以来,习近平总书记多次倡导构建人类命运共同体。2017年10月,习近平总书记在党的十九大报告中指出,"我们呼吁,各国人民同心协力,构建人类命运共同体,建设持久和平、普遍安全、共同繁荣、开放包容、清洁美丽的世界"。2019年4月27日,习近平总书记在第二届"一带一路"国际合作高峰论坛上再次倡导构建人类命运共同体。作为解决全球治理难题的中国方案,构建人类命运共同体势在必行。构建人类命运共

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本统计论文参考文献

[1].管江红.基于χ~2统计量的不良文本过滤特征选择方法[J].现代电子技术.2019

[2].蒋海蛟,牟琛.人类命运共同体理念的海外传播分析——基于对叁家国际主流报刊的数据统计和文本分析[J].对外传播.2019

[3].程慧玲.基于python的文本挖掘应用——以米9用户评论的词频统计为例[J].青年与社会.2019

[4].张海彬.贝叶斯统计在文本挖掘的若干研究[D].华东师范大学.2019

[5].王露瑶,张涛,陈才,朱安琥,罗启明.基于卡方统计改进的TF-IDF的文本分类的研究[J].电子世界.2019

[6].任晓玲,于敏.义务教育阶段校园欺凌事件的特点、原因与解决对策研究——基于2014年1月——2017年4月媒体文本的统计分析[J].通化师范学院学报.2019

[7].周江萌.小型英语影视语料库字幕文本的词汇统计分析[J].智库时代.2019

[8].马欣欣,林克.大文本数据快速分析统计理论与算法[J].电子元器件与信息技术.2019

[9].陈伟鸿,林伟.文本分类中卡方统计特征选择算法的改进[J].有线电视技术.2018

[10].林茜.用于统计机器翻译训练的评论性文本的英汉翻译策略[D].上海外国语大学.2018

论文知识图

维吾尔文文本统计系统主窗口下...维吾尔文文本统计系统主窗口介...叁:哲学名着语料库(英语文本统计Everyday Use的文本统计信息截...四:哲学名着语料库(汉语文本统计《金锁记》的文本统计信息截图...

标签:;  ;  ;  ;  ;  ;  ;  

文本统计论文_管江红
下载Doc文档

猜你喜欢