导读:本文包含了页面分割论文开题报告文献综述、选题提纲参考文献,主要关键词:图像,文本,页面,模式,网页,信息,链表。
页面分割论文文献综述写法
马凯凯,钱亚赫,阮东跃[1](2018)在《基于文本频率页面分割算法对论坛正文提取》一文中研究指出如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,通过分析页面内的链接文本及结构特征,找出帖子所分布在的所有网址。再利用页面文本的频率特征,去除HTML标签后按空格对文本进行分词,根据其频率分布计算网页的分割标志,得到回帖所在的文本块。再用正则表达式提取时间信息,进一步去噪后即可得到主贴及回帖信息。(本文来源于《中国水运(下半月)》期刊2018年02期)
朱冰阳[2](2015)在《基于CEF的页面分割算法的研究》一文中研究指出当前,对Deep Web数据自动抽取的研究已经有不少的研究成果。相比其他方法,基于网页视觉信息的方法取得了更好的效果。它摆脱了网页DOM树的依赖,只利用网页的视觉信息抽取数据,提高了抽取的准确性。然而,利用视觉信息抽取Deep Web数据的方法需要先将网页划分为单独的视觉块。目前,已经有许多方法可以实现对网页的划分。在这些方法中,VIPS算法(基于视觉信息的页面分割算法)取得的效果是最好的。相比于其他的方法,VIPS算法不依赖网页的结构,即使网页结构发生变化,VIPS算法也能取得很好的效果。鉴于VIPS算法的优点,本文采用VIPS算法实现了对网页的分割。为了提高效率,本文选择在CEF (Chromium Embedded Framework)框架中实现VIPS算法,并在CEF框架中实现了对页面结点视觉信息的获取。本文主要工作如下:(1)视觉块抽取。首先利用JS获取页面结点的视觉信息。然后利用这些视觉信息结合给定的启发式规则判断DOM结点是否可以被继续分割,将不能被分割的DOM结点作为一个视觉块存放在集合中。(2)分隔条探测。首先将整个页面当作一个分隔条,根据已经得到的视觉块计算出分隔条的位置和大小。然后根据视觉块与分隔条的位置关系分割、移除、修改分隔条。最后设置每个分隔条的权重。(3)内容结构构建。从权重最小的分隔条集合开始,依次合并分隔条两侧的视觉块形成一个新的视觉块。然后选择权重次小的分隔条集合并合并两侧的视觉块,以此类推,直到遇到权重最大的分隔条集合。最终,内容结构构建完成,得到该页面对应的视觉块树。实验表明,本文提出的方法可以有效的对页面进行视觉块划分。(本文来源于《中国海洋大学》期刊2015-05-25)
张乃洲,曹薇,李石君[3](2015)在《一种基于节点密度分割和标签传播的Web页面挖掘方法》一文中研究指出获取Web页面中的重要内容如文本和链接,在许多Web挖掘研究领域有着重要的应用价值.目前针对该问题主要采用Web页面分割和区块识别的方法.但现有的方法将Web页面中重要文本和链接的识别视为两个相互独立的问题,这种做法忽略了Web页面中文本和链接的内在语义关系,同时降低了页面处理的效率.文中提出了一种Web页面重要内容挖掘的统一框架,该框架主要由3个部分组成:第一,先将Web页面转换为DOM树表示,然后采用节点密度熵为度量将DOM树分割为不同的页面块;第二,采用基于K最近邻标签传播的半监督方法自动扩展页面块训练集;第叁,在扩展的页面块训练集上对SVM分类器进行训练,并用来对页面块进行分类.采用该框架可以将Web页面块区分为多种类型,并且该框架独立于Web页面的类型和布局.我们在真实的Web环境下进行了广泛的实验,实验结果表明了该方法的有效性.(本文来源于《计算机学报》期刊2015年02期)
李军,陈君,王玲芳,倪宏[4](2013)在《一种垂直页面分割与信息提取方法的研究》一文中研究指出在综合分析不同页面分割算法和适用条件的基础上,研究针对垂直型网站的页面分割和信息提取算法。以DOM(document object model)树为基础,提出页面内容聚集度的概念,统计获取页面分割标签和样式层迭表映射,对页面进行分割;采用正文识别和前缀匹配的方法,完成从页面分块信息提取。结合实际的网络视频项目需求,实现面向垂直型网站页面的分割和信息提取器。实验结果表明,该网页分割和信息提取方法对垂直页面信息提取具有良好的性能,满足实际项目需求。(本文来源于《计算机应用研究》期刊2013年03期)
刘仁金,高远飙,郝祥根[5](2010)在《文本图像页面分割算法研究》一文中研究指出提出了一种基于改进纹理谱的文本页面分割算法,该算法首先采用改进的递归投影轮廓切割算法对文本图像页面进行粗分割,并提取文本图像的纹理谱特征;然后采用最小距离法将相邻纹理单元进行分类;最后实现文本图像页面文字区与非文字区的精确分割.实验表明,提出的方法在含有文字、图、表格的文本图像页面分割中效果很好,对其他复杂文本图像页面分割也具有适应性.(本文来源于《中国科学技术大学学报》期刊2010年05期)
陈翰生,曾剑平,张世永[6](2009)在《一种基于位置信息的Web页面分割方法》一文中研究指出提出并实现了一种针对HTML文档的页面分割方法,其目的是为了能有效提取新闻网页的正文以进行数据挖掘。基本思想是通过模拟网页浏览器的部分渲染工作,来还原HTML文档中每个标签在浏览器窗口上的显示位置,并以此对页面分割,用于提取一些重要区域的信息。在实验中,对10多个知名新闻站点如新浪、网易、TOM新闻等,利用这一方法提取其网页中的新闻正文,准确率在88.5%左右,表明了这一方法的有效性和可行性。(本文来源于《计算机应用与软件》期刊2009年07期)
李希勇,谢琼梅[7](2008)在《网站页面设计中的分割构成初探》一文中研究指出现今网页设计愈加强调实用、美观、创意、互动性。更多网站在策划初期就已经把网页设计作为网站规划、构建的重要部分。本文在研究页面设计中的分割构成形式中寻求最佳页面设计来吸引用户眼球,提出了页面设计中分割构成意义,从而提高我国网页设计从业人员的水平和创新能力。(本文来源于《企业家天地下半月刊(理论版)》期刊2008年09期)
李艳玲,王加俊[8](2005)在《基于模式链分析的文本页面图像的分割与分类》一文中研究指出为了能对复杂版式的文本图像(如包含镶嵌在文字中的形状不规则的图片区)的页面进行图文分割与分类,提出了一种新的基于模式链分析的文本页面分割与分类算法。该算法首先使用外接矩形框出图像中的所有黑像素,并且存入矩形框链表中,再组合所有相邻的矩形进而形成模式,最后依据各模式的统计特征分类,输出文字区和图片区两类图像。另外,对大图片模式周围个别不确定的模式,本文采用了上下文分类的算法进行再次分类。实验结果表明,该算法不仅运算速度快,而且能够对复杂版式的页面图像进行正确的图文分割和分类。(本文来源于《中国图象图形学报》期刊2005年06期)
王加俊,黄贤武,郭玮玮,仲兴荣[9](2004)在《文本页面图像的图文分割与分类算法》一文中研究指出为了能对包含不规则图片区和表格的倾斜文本页面图像进行图文分割与分类 ,提出了一种新的图文分割和分类算法。该算法先采用数学形态学和分级霍夫变换来进行文本倾斜的检测和校正 ;然后为了使算法能够对包含不规则图片区的文本页面图像进行处理 ,提出在传统的投影轮廓切割算法中 ,引入中点切割的过程 ,以便利用一系列的矩形来近似地逼近不规则的图片区。对于分割后的图像 ,则提出利用黑白像素比 (Rbw)和近邻像素间的交叉相关性 (Rcc)两个特征来作为分类的判据。实验结果证明 ,算法速度快、可靠性高。该算法只适用于二值图像。(本文来源于《中国图象图形学报》期刊2004年05期)
李艳玲[10](2004)在《文本图像页面分割和分类技术的研究》一文中研究指出文本图像页面分割和分类技术是文本自动分析研究领域的一个重要课题,它主要将图像中的文字区和非文字区分割开来,以便于文字区送入字符识别系统转化为电子文档。文本图像页面分割技术对于字符识别系统和图像压缩、图像存储系统都很重要。国内外的科研工作者在页面分割的算法方面进行了大量的研究,取得了丰硕的科研成果,但是由于文本资料版式复杂,各种分割算法一般都只适用于某几类页面版式。 本文对已有的算法进行了研究和试验,提出了两种新的分割方案: 第一种是基于高斯混合模型的分割方法。该方法根据纹理特征的不同,将不同类别的图像区用参数不同的高斯混合模型描述,最后依据最大似然概率进行判决。该算法与已有的纹理分割算法相比,不仅参数训练速度快、算法简单易实现,还不受图文混排等多种版式的限制。 第二种是基于模式链分析的分割方法。该方法将二值化图像用一条模式链表来表示,再对各个模式进行分类。本文针对文本页面图像中的版式复杂(主要指形状不规则的图片镶嵌在文字段落中)不易分割这一难题,对文献(Optical Engineering,Vol.39(3),pp.724-734,March 2000)中的模式分类过程进行了改进。首先,在按模式的统计特征分类时,只使用了最大黑游程一个特征就取得了较好的效果;其次,在模式上下文分类时,并不是对所有的模式进行处理,而仅仅对大图片模式周围个别不确定的模式进行二次分类。另外,在此基础上本文还提出了一种专门用于提取图表中文字的方法,结果表明这种方法是行之有效的。(本文来源于《苏州大学》期刊2004-05-01)
页面分割论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
当前,对Deep Web数据自动抽取的研究已经有不少的研究成果。相比其他方法,基于网页视觉信息的方法取得了更好的效果。它摆脱了网页DOM树的依赖,只利用网页的视觉信息抽取数据,提高了抽取的准确性。然而,利用视觉信息抽取Deep Web数据的方法需要先将网页划分为单独的视觉块。目前,已经有许多方法可以实现对网页的划分。在这些方法中,VIPS算法(基于视觉信息的页面分割算法)取得的效果是最好的。相比于其他的方法,VIPS算法不依赖网页的结构,即使网页结构发生变化,VIPS算法也能取得很好的效果。鉴于VIPS算法的优点,本文采用VIPS算法实现了对网页的分割。为了提高效率,本文选择在CEF (Chromium Embedded Framework)框架中实现VIPS算法,并在CEF框架中实现了对页面结点视觉信息的获取。本文主要工作如下:(1)视觉块抽取。首先利用JS获取页面结点的视觉信息。然后利用这些视觉信息结合给定的启发式规则判断DOM结点是否可以被继续分割,将不能被分割的DOM结点作为一个视觉块存放在集合中。(2)分隔条探测。首先将整个页面当作一个分隔条,根据已经得到的视觉块计算出分隔条的位置和大小。然后根据视觉块与分隔条的位置关系分割、移除、修改分隔条。最后设置每个分隔条的权重。(3)内容结构构建。从权重最小的分隔条集合开始,依次合并分隔条两侧的视觉块形成一个新的视觉块。然后选择权重次小的分隔条集合并合并两侧的视觉块,以此类推,直到遇到权重最大的分隔条集合。最终,内容结构构建完成,得到该页面对应的视觉块树。实验表明,本文提出的方法可以有效的对页面进行视觉块划分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
页面分割论文参考文献
[1].马凯凯,钱亚赫,阮东跃.基于文本频率页面分割算法对论坛正文提取[J].中国水运(下半月).2018
[2].朱冰阳.基于CEF的页面分割算法的研究[D].中国海洋大学.2015
[3].张乃洲,曹薇,李石君.一种基于节点密度分割和标签传播的Web页面挖掘方法[J].计算机学报.2015
[4].李军,陈君,王玲芳,倪宏.一种垂直页面分割与信息提取方法的研究[J].计算机应用研究.2013
[5].刘仁金,高远飙,郝祥根.文本图像页面分割算法研究[J].中国科学技术大学学报.2010
[6].陈翰生,曾剑平,张世永.一种基于位置信息的Web页面分割方法[J].计算机应用与软件.2009
[7].李希勇,谢琼梅.网站页面设计中的分割构成初探[J].企业家天地下半月刊(理论版).2008
[8].李艳玲,王加俊.基于模式链分析的文本页面图像的分割与分类[J].中国图象图形学报.2005
[9].王加俊,黄贤武,郭玮玮,仲兴荣.文本页面图像的图文分割与分类算法[J].中国图象图形学报.2004
[10].李艳玲.文本图像页面分割和分类技术的研究[D].苏州大学.2004