正文抽取论文-郑野,宋旭东,于林林,陈鑫影

正文抽取论文-郑野,宋旭东,于林林,陈鑫影

导读:本文包含了正文抽取论文开题报告文献综述及选题提纲参考文献,主要关键词:文本块密度,标签路径覆盖率,正文抽取

正文抽取论文文献综述

郑野,宋旭东,于林林,陈鑫影[1](2019)在《基于标签路径覆盖率和多文本特征的正文抽取算法》一文中研究指出如何正确识别网页中存在的网页评论、导航、版权声明等噪音数据,提高网页抽取正文的准确度,提出了一种结合多种文本特征的正文抽取算法(CETD-TPF).在文本块密度和标签路径覆盖率的基础之上又融合了文本符号特征,利用新特征确定并抽取正文文本块.此方法有效的解决了网页正文短文本难以抽取的问题,且无需人工训练和处理.在对各大知名新闻网站随机选取的数据集进行实验表明,CETD-TPF方法在不同数据源上的适用性较好,正文抽取精度好于CETR、CETD算法.(本文来源于《大连交通大学学报》期刊2019年05期)

吕容政,刘嘉勇[2](2019)在《基于决策树的自适应网页正文抽取方法》一文中研究指出为了从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可获缺的组成部分。针对网页正文提取的通用性与适应性问题,提出一种基于决策树分类的自适应性网页正文抽取算法。为了更好地表征网页正文的特征和平滑有分类错误带来的误差,选取标签用途、文本密度、兄弟节点的相似性标签的外链四个特征向量表征DOM树的叶子结点,避免特征向量单一导致的分类误差大。其次通过对已知样本的分析得到的四个特征向量特征,并使用决策树方法将叶子结点分为正文类和噪声类。最后根据分类的结果计算DOM树中非叶子结点的信噪比,选取信噪比最高的DOM树结点即获取的网页正文,通过这种方式克服其他网页正文抽取中需要人工确定不同类型网页的阈值的问题,并且实验证明,保证同样的正确率下,可以适用更多类型的网页。(本文来源于《现代计算机(专业版)》期刊2019年07期)

何春辉,王孟然[3](2018)在《改进的中文静态网页新闻正文自动抽取算法》一文中研究指出网页新闻正文自动抽取属于信息抽取领域中的重要研究问题,现有基于行块分布进行新闻正文自动抽取的方法对短文本段落的新闻正文抽取效果较差。为了改善这种现状,提出了一种改进的中文静态网页新闻正文自动抽取算法。该方法给出了较好的行块分割策略来构建行块分布函数,并提出使用最长公共子序列作为新闻正文内容起始行块和结束行块的快速定位方法的判别准则。最后在1 000个新闻网页上对算法的性能进行了实验验证,得出新算法的平均抽取准确率为95. 0%,平均召回率为96. 54%,正文平均遗失率为1. 6%,抽取单个网页的平均耗时为0. 13 s。实验结果充分说明了新算法能适应大规模的网页新闻正文自动抽取任务。(本文来源于《东莞理工学院学报》期刊2018年05期)

廖建军[4](2018)在《基于标签样式和密度模型的网页正文自动抽取》一文中研究指出【目的/意义】为给数字出版知识服务系统提供高质量的文本语料以供知识抽取,本文提出了基于标签样式和密度模型来抽取网页正文的方法。【方法/过程】该方法先根据标签样式将网页文本进行分块,再根据各块文本内容的文本密度、标点密度、非超链接密度计算出综合密度,最后通过阈值判断抽取出网页中信息含量高的正文。【结果/结论】该方法简单高效无需人工编写规则或训练,能完整地抽取出网页正文。通过随机选取新闻网页进行实验,结果表明该方法能有效地自动抽取网页正文,适用于不同设计风格的网站,而且准确率和召回率优于基于统计的CEPR抽取方法。(本文来源于《情报科学》期刊2018年07期)

王健[5](2017)在《基于Hadoop的Web页面正文抽取技术的研究》一文中研究指出随着互联网技术的快速发展和网络用户不断增多,网页信息量呈井喷式增长。Web信息抽取现已经成为当前的研究热点之一。当前Web信息是网络用户获取信息的重要来源,由于Web信息的动态变化性,在数量巨大的网络信息库中用户往往无法快速的捕捉网页中的正文信息。如何从巨大的互联网资源库中快速并且准确的对页面中的噪音进行过滤,抽取出网页中对用户有用的信息是当前抽取领域的难题。本文提出的基于Hadoop的Web页面正文抽取方法正是解决上述问题的方法之一。论文研究如何在面对海量规模数据的Web页面的情况下,确保Web页面正文抽取的高效性和准确性。研究内容主要包含两部分:在第一部分中,本文分析现有的基于视觉信息的分块方法,并对原算法的分隔迭代过程进行改进,生成语义较为完整的网页信息块且形成网页视觉块树。在第二部分中,本文充分利用网页块的样式、内容、词频等特征并进行分析,根据重要度进行正文网页块识别。在综合本文研究内容的基础上,分析典型的系统结构特点,设计实现基于Hadoop的Web页面正文抽取系统。对系统进行数据源的测试,实验结果表明本文提出的信息抽取算法有较好地准确率以及较高的性能。该系统良好的解决海量网页的抽取问题。本文提出的基于Hadoop的抽取方法为海量数据模型提供了新的解决思路,分布式计算模型能够较好的解决性能问题。(本文来源于《南京邮电大学》期刊2017-10-26)

刘鹏程,胡骏,吴共庆[6](2018)在《基于文本块密度和标签路径覆盖率的网页正文抽取》一文中研究指出大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特征的优点,设计了融合两种特征的新特征,利用新特征抽取网页中的最佳文本块,最后,抽取该文本块中的正文内容。该方法有效地解决了网页正文中噪声块信息过滤和短文本难以抽取的问题,且无须训练和人工处理。在Clean Eval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETD-TPC方法在不同数据源上均具有很好的适用性,抽取性能优于CETR、CETD和CEPR算法。(本文来源于《计算机应用研究》期刊2018年06期)

刘鹏程[7](2017)在《结合块密度和标签路径特征的网页正文抽取方法研究》一文中研究指出随着互联网的飞速发展,Web逐渐成为很多应用的重要信息来源。大多数网页除了正文信息外,还包括导航、广告、推荐链接、版权申明等与网页主题内容无关的噪声信息。这些噪声信息降低了搜索引擎、Web新闻聚合、Web信息检索等应用系统的性能。因此,网页正文抽取具有重要的研究意义和应用价值。本文基于网页的文本块密度和标签路径特征,开展网页正文抽取研究,主要研究工作如下:(1)根据网页的正文内容分布与网页文本块中的文本字符、标签信息的潜在联系,设计了一种区分网页中正文内容和噪声信息的文本块特征:文本块密度特征,解决了网页正文中短文本难以抽取的问题。进一步研究超链接字符在网页中的分布,扩展了文本块密度特征,有效地过滤了包含大量超链接字符的噪声信息块,提出了基于文本块密度特征的网页正文抽取算法CETBD。在CleanEval数据集和从知名网站上随机选取的新闻网页数据集上的实验结果表明,CETBD方法是一种通用的、高效的、无监督的且与语言无关的网页正文抽取方法。(2)为了提高CETBD算法抽取网页正文文本块的准确性,定义了标签路径覆盖率特征,并通过实例研究文本块密度特征和标签路径覆盖率特征之间的联系,将两个特征融合为新特征,并根据新特征提出了基于文本块密度和标签路径覆盖率的网页正文抽取方法CETD-TPC。实验结果表明:CETD-TPC方法是一种高精度、实时的网页正文抽取方法,抽取性能优于CETBD、CEPR和CETD算法。(3)设计并实现了一个基于文本块密度和标签路径覆盖率的Web新闻内容抽取原型系统,系统集成了本文提出的抽取方法和其它几个主流的正文抽取算法,介绍了系统的框架组成、实现以及系统的用户使用界面。最后分析了网页正文抽取算法在实际应用中的优势与不足。(本文来源于《合肥工业大学》期刊2017-04-01)

于秀开[8](2017)在《基于标题与正文的文本分类和评价对象抽取方法研究》一文中研究指出随着社会的发展,互联网信息呈现爆炸式的增长,通过观察网民提交的文本发现,大多数网站特别是新闻和政府的网站,文本信息都具有结构化的特点,通常包含标题文本和正文文本。正文通常是对事件详细的描述,包含的语义信息比较丰富,同时具有主题多样性,噪声巨大。标题通常是对事件的精炼简洁的概述,表达信息准确,语义清晰,所以充分利用标题信息就变得十分有意义。本文充分利用标题的特点,提出了基于标题和正文的主题模型应用于文本分类研究。由于标题的特殊性,语句简短,句法简单,所以本文基于规则和句法依存关系可以有效的提取标题中的评价对象。本文主要工作如下:(1)本文利用一篇文档具有标题和正文两部分的特点,提出了基于标题和正文的主题模型,该模型可以获得文档正文的主题分布和标题的主题分布,使用调节参数,优化整篇文档的主题分布。充分利用标题具有精炼简洁、主题明确的优点,可以有效的降低正文部分语义繁杂、主题多样性对文本分类的影响,从而获得整篇文档最优的主题分布,通过最佳的主题分布,可以提高文本分类的准确性。(2)由于标题精炼简洁,主题明确,因此采用句法依存关系获取标题中的评价对象。本文基于规则和词性标注获取标题中潜在的评价对象,因为本文标题语料的特殊性,潜在的评价对象和动词具有很强的依赖关系,所以本文构建动词词典库,通过动词出现在句法分析树的位置,遍历整个句法分析树,可以从潜在的评价对象中找到标题中真实的评价对象。(3)由于本文的语料是来自某城市的政府直通车网站,解决当地城市居民所面临的问题,所以文本中出现了大量的当地特有的命名实体,为了解决这些特有的词汇对文本分词和句法依存关系的影响,本文加入了大量的当地特有的小区名,道路名,公交地铁名等名词作为用户词典,由于分词具有较好的准确性,所以在文本分类和评价对象的抽取的任务中都获得了不错的效果。(本文来源于《安徽大学》期刊2017-02-01)

王海艳,曹攀[9](2016)在《基于节点属性与正文内容的海量Web信息抽取方法》一文中研究指出为解决大数据场景下从海量Web页面中抽取有价值的信息,提出了一种基于节点属性与正文内容的海量Web信息抽取方法。将Web页面转化为DOM树表示,并提出剪枝与融合算法,对DOM树进行简化;定义DOM树节点的密度和视觉属性,根据属性值对Web页面内容进行预处理;引入MapReduce计算框架,实现海量Web信息的并行化抽取。仿真实验结果表明,提出的海量Web信息抽取方法不仅具有更好的性能,还具备较好的系统可扩展性。(本文来源于《通信学报》期刊2016年10期)

潘心宇,陈长福,刘蓉,王美清[10](2016)在《基于网页DOM树节点路径相似度的正文抽取》一文中研究指出由于人工抽取网页信息效率低、成本高,因此根据对大量网页结构的观察,提出基于网页文档对象模型DOM树节点路径相似度的正文抽取方法。依据同网站下的网页结构相同的特点去除网页噪声得到网页的主题内容,然后结合正文节点在DOM树中的路径的相似度抽取正文。通过对不同类型的中文新闻网站上的1 000个网页进行实验,结果表明该方法对于97.6%的网页都能够去除大部分噪声并保持正文内容的完整性,正文抽取结果有93.30%的准确率和95.59%的召回率。所提算法对不同类型的网页都有较好的适应性。(本文来源于《微型机与应用》期刊2016年19期)

正文抽取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

为了从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可获缺的组成部分。针对网页正文提取的通用性与适应性问题,提出一种基于决策树分类的自适应性网页正文抽取算法。为了更好地表征网页正文的特征和平滑有分类错误带来的误差,选取标签用途、文本密度、兄弟节点的相似性标签的外链四个特征向量表征DOM树的叶子结点,避免特征向量单一导致的分类误差大。其次通过对已知样本的分析得到的四个特征向量特征,并使用决策树方法将叶子结点分为正文类和噪声类。最后根据分类的结果计算DOM树中非叶子结点的信噪比,选取信噪比最高的DOM树结点即获取的网页正文,通过这种方式克服其他网页正文抽取中需要人工确定不同类型网页的阈值的问题,并且实验证明,保证同样的正确率下,可以适用更多类型的网页。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

正文抽取论文参考文献

[1].郑野,宋旭东,于林林,陈鑫影.基于标签路径覆盖率和多文本特征的正文抽取算法[J].大连交通大学学报.2019

[2].吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机(专业版).2019

[3].何春辉,王孟然.改进的中文静态网页新闻正文自动抽取算法[J].东莞理工学院学报.2018

[4].廖建军.基于标签样式和密度模型的网页正文自动抽取[J].情报科学.2018

[5].王健.基于Hadoop的Web页面正文抽取技术的研究[D].南京邮电大学.2017

[6].刘鹏程,胡骏,吴共庆.基于文本块密度和标签路径覆盖率的网页正文抽取[J].计算机应用研究.2018

[7].刘鹏程.结合块密度和标签路径特征的网页正文抽取方法研究[D].合肥工业大学.2017

[8].于秀开.基于标题与正文的文本分类和评价对象抽取方法研究[D].安徽大学.2017

[9].王海艳,曹攀.基于节点属性与正文内容的海量Web信息抽取方法[J].通信学报.2016

[10].潘心宇,陈长福,刘蓉,王美清.基于网页DOM树节点路径相似度的正文抽取[J].微型机与应用.2016

标签:;  ;  ;  

正文抽取论文-郑野,宋旭东,于林林,陈鑫影
下载Doc文档

猜你喜欢