页面提取论文-丛小亮,余翔湛

页面提取论文-丛小亮,余翔湛

导读:本文包含了页面提取论文开题报告文献综述及选题提纲参考文献,主要关键词:HTTPS,页面指纹,主动提取

页面提取论文文献综述

丛小亮,余翔湛[1](2018)在《HTTPS页面指纹特征对象主动提取系统的设计与实现》一文中研究指出HTTPS是网络中应用最多的Web安全协议之一。针对于HTTPS站点页面访问流量的识别,一种较为有效的流量识别方法是,以站点HTTP报文大小序列作为特征建立站点指纹,进而识别站点访问流量。为采集页面指纹,设计并实现了页面指纹特征对象主动获取系统,实验表明,本系统能够较好地采集页面站点指纹,为页面访问流量识别工作提供了良好基础,具有一定的实际意义。(本文来源于《智能计算机与应用》期刊2018年05期)

童立靖,王凤鹤,李斌[2](2018)在《基于纹理的叁维书籍模型单侧页面提取方法》一文中研究指出模型分割在实际工程中有重要的应用价值。针对叁维书籍模型的点云分割,提出了一种基于纹理的单侧书籍页面提取方法。对于获取的叁维书籍模型以及散乱纹理图像,首先将模型的散乱纹理转化为有序纹理,将像素值从RGB空间转换到HSI空间,根据H(色调)和I(亮度)去掉模型背景点云;然后根据书脊线像素在有序纹理图像中的分布特性,计算纹理图像中的书脊线,再利用最小二乘法拟合出书脊线的叁维空间方程,进而求出分割左右页面的空间平面,最终完成单侧页面的提取。实验结果表明,该方法针对叁维书籍模型能够快速稳定地提取出单侧页面,具有较高的准确性。(本文来源于《图学学报》期刊2018年02期)

马凯凯,钱亚赫,阮东跃[3](2018)在《基于文本频率页面分割算法对论坛正文提取》一文中研究指出如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,通过分析页面内的链接文本及结构特征,找出帖子所分布在的所有网址。再利用页面文本的频率特征,去除HTML标签后按空格对文本进行分词,根据其频率分布计算网页的分割标志,得到回帖所在的文本块。再用正则表达式提取时间信息,进一步去噪后即可得到主贴及回帖信息。(本文来源于《中国水运(下半月)》期刊2018年02期)

李斌[4](2017)在《叁维图书模型的页面提取方法研究》一文中研究指出目前,对于扭曲文档图像的光学字符识别(OCR)仍然是一个较难解决的问题,由于受到文档扭曲的影响,二维图像的文字识别率往往有很大的下降。叁维形态特征和点云密度分布特征扫描技术的出现,为扭曲文档图像的字符识别问题提供了一个新的解决途径。然而一般情况下,从叁维扫描仪扫描获得的是对打开的整本图书的叁维模型,也就是包括两个页面的叁维模型,并且这种模型还包括背景空间、书口等不需要的点云与纹理。而且手工进行点云分割是比较麻烦的。本文针对叁维图书模型的单侧页面提取,提出了一种基于形态特征和另一种基于纹理特征的单侧页面点云分割方法。基于形态特征的方法利用模型的点云深度信息,首先求出背景平面方程,去掉模型背景,保留书籍区域;然后通过分析书籍模型的形态特征,求出分割左右页面的空间平面,保留其中一侧页面;再根据点云的密度分布去掉页面的书口区域点云,最后,修改平面纹理坐标索引对应的空间顶点坐标索引值,更新并保存新的叁维模型文件。基于纹理特征的方法首先将模型的散乱纹理转化为有序纹理图片,将像素点的RGB值转换到HSI空间,将H(色调)和I(亮度)设置一个阈值范围,去掉模型背景,保留书籍区域;然后通过分析书脊线在有序纹理图像中的像素值分布特征,找到分割左右页面的像素点位置,根据仿射变换,求出它的叁维坐标值,进而求出分割左右页面的空间平面,保留其中一侧页面。最后,根据上面所描述的算法思路,进行了整个系统的设计,并对大量的图书模型进行了测试。实验表明,这两种算法都能够对向左倾斜、不倾斜或向右倾斜的图书模型进行稳定的自动提取单侧图书页面,并且处理速度较高,提取的单侧页面较为准确。(本文来源于《北方工业大学》期刊2017-06-05)

王彬琦[5](2016)在《基于特征提取的HTTPS页面分类检测系统的设计与实现》一文中研究指出传统数据流分类的方法中,对不同网络协议和明文传输的分类研究占有很大的比例。但是,对于基于同一协议以及加密传输的分类方法的研究比较少。所以,本论文中设计并实现的系统可以在一定的范围内,为加密页面的分类识别提供了一个可行性方法。并且,根据协议分析和特征统计等相关知识,设计并实现了一套关于加密静态页面请求响应流分类的完整系统。本文需要获取到待分类检测的数据包文件,然后通过人工协议分析并标注其中的特征属性。为了获取请求响应阶段网卡的数据流量,并且减少捕获数据过程中的人为操作,本文分析了数据捕获过程中操作流程,并通过行为模拟的方式设计并实现了数据捕获模块;对应捕获的数据包,本文可以人工的通过wireshark等网络封包分析软件寻找某条存在具有特征差异性的数据流,但是,这样逐条数据流分析的工作量同样是巨大的,为此本文又设计并实现了特征提取模块,可以根据我们找到的一小部分特征,利用libnids的强大解析能力,大规模的寻找其他数据中相同或相似的特征,为了保证特征更加具有灵活性,我们还设定了阈值,运用了区间范围进行了相似度的模糊匹配;本文对上面分析并提取到的特征建立了前缀树匹配模型,并通过特征预处理与前缀树剪枝等方法优化了分类模型,实现了在线加密数据流的快速分类检测。通过对特征提取模块的不断优化和测试,程序已经可以在分钟级内提取指定数据包样本的特征,然后,通过优化分类模型,使其可以在秒级内快速的对实时流量进行分类检测。而且,可以全年不间断的稳定运行。(本文来源于《哈尔滨工业大学》期刊2016-06-01)

胡瑞[6](2016)在《基于Web页面结构的网页数据提取研究》一文中研究指出自上世纪50年代世界上第一台计算机问世以来,尤其是最近几十年随着互联网技术的飞速发展,英特网上来自全球领域的数据呈现指数型的增长。我们的日常生活也早已和这些海量的数据密切相关。互联网上的数据当然主要以Web数据为主要载体。但是由于受到web固有半结构限制再加上网页随处可见的与主题信息毫不相干的广告等噪声信息,这样使得我们对于自己感兴趣的信息难以从海量的web数据中获取并利用。于是研究如何准确方便的从海量的信息中提取人们关心的目标信息数据并且结构化存储起来变得越来越重要。目前这方面的研究已成为国内外学者研究热点之一,基本上多数的研究都是在HTML标签的解析基础上基于网页DOM树结构或者视觉树,然后通过一些包装器的设计等方法进行人工或者半人工也有自动化的提取技术,很多研究也取得了很好的效果。本文的研究也是建立在DOM树的结构基础上,针对列表型页面的数据提取做了详细的研究。提取结构特征值,通过对特征值的处理引入了中介数学理论。在定位目标数据区域的算法研究中,本文首先在基于对HTML解析成DOM文档树的基础上进行了优化处理。并且提出了“基于XPath的叶子节点路径改进算法”该算法输出DOM文档树叶子节点一个路径。此路径结构是后续的工作的可行性至关重要的基础。在此基础上把中介数学理论系统(MMT D)引入并且针对DOM树的结构特征提出了“基于MMTD目标数据区域定位算法(DL_MMTD) ",这个对模糊世界进行量化处理的数学方法被用在计算机科学的多个领域,尤其是模糊集处理方面。但是本文首次把中介数学理论应用到了网页信息提取研究上来,并且取得了不错的效果。紧接着对数据记录进行提取算法研究。提出了数据记录长度的概念。并且相应提出了“基于路径结构的数据记录长度求取算法(CDL_PathStructure)"。在得到每一个数据记录的数据长度的基础上都数据记录的数据项做依次提取工(本文来源于《安徽大学》期刊2016-04-01)

张洪庆[7](2013)在《支持动态页面的快速URL提取方法研究》一文中研究指出Web2.0技术在互联网上的出现以及社交平台的兴起,极大的促进了动态网页的使用和普及。动态网页中的Ajax技术,实现了客户端和服务端之间数据的异步操作,不仅满足了新时代的技术需要,同时也提高了用户体验,更是促进了互联网的发展。但是,传统网络爬虫并不能应对动态网页带来的新特征,所以支持动态页面的网络爬虫的研究就具有了一定实践意义。对于主题网络爬虫而言,噪声链接不仅没有价值,而且还会占用大量的资源,尤其是网络爬虫对噪声链接对应网页的采集和分析,极大地降低了网络爬虫爬取的效率。针对上述问题,本文的主要研究内容如下:首先,针对动态网页中关键技术Ajax异步操作的原理,解决了如何令网络爬虫支持动态网页爬取的问题。本文通过HTTP请求获取到网页,然后将网页在本地进行DOM树的构建,进行对脚本的解析和URL的提取,并通过对HtmlUnit的源码修改来解析需要进行点击触发的脚本,从而解决传统网络爬虫对动态网页中动态生成的URL难以获取的问题;其次,由于噪声链接极大地降低了网络爬虫的效率,所以本文对网页噪声的去除算法进行了研究。传统的网页去噪算法针对网页整体结构进行处理,去噪效率低下。本文对提取后的URL结果通过聚类之后进行相似度计算进行去噪,并提出了基于改进Single-Pass算法的噪声链接去除算法,该算法在去噪的准确率上取得了较好的效果;最后,实现了支持动态页面的快速提取URL主题网络爬虫系统,并针对动态网页解析及动态生成URL的提取、去噪算法的效果对比和主题网络爬虫系统在快速提取URL这叁个方面设计并进行实验。实验结果数据表明,本文实现的网络爬虫系统很好的支持了动态网页URL的提取,同时也实现了网页URL快速提取的目的。(本文来源于《哈尔滨工业大学》期刊2013-12-01)

杨小虎[8](2013)在《Web页面正文信息提取算法》一文中研究指出随着Internet和数据库技术的快速发展,互联网已成为信息传播的主流平台。网络上的海量信息在给人类带来方便的同时,信息冗余、形式多样、真假难辨、统一处理比较困难等一系列问题相继出现。“数据过剩”、“信息爆炸”和“知识贫乏”等现象使得人们在海量的信息中难以迅速的找到自己所需要的信息,Web数据挖掘技术因此产生。在Web数据挖掘中主要研究Web内容挖掘、Web结构挖掘和Web使用挖掘等叁个方面。随着数字媒体技术的发展,Web页面中充斥着各种跨媒体信息,使得Web内容挖掘日益重要,因此本文围绕Web内容挖掘展开研究。由于Web页面信息类型的增加,信息容量的扩充,使得从单个页面中获取兴趣信息日益困难,再加上页面编撰者和拥有者为了扩大页面影响力和自身利益的需要而美化网页,通常会在页面插入许多超链接、广告等“噪音信息”,这使得用户无法快速在网页中定位自己所需要的信息。因此页面信息提取成为内容挖掘中的重要研究课题,尤其对于手机、PAD用户,页面信息提取的意义显得尤为重要。通过大量的学习总结出,目前主要的Web信息提取方法有基于统计学习、基于模板、基于DOM树和基于视觉信息这4种,本文从叁方面对它们做了比较,并分析了各自的优缺点。在此基础上,提出了针对Web页面正文提取的两种方法。(1)基于Block-DOM的WEB页面正文信息提取基于模板、基于视觉信息、基于DOM树这叁种信息提取方法是目前的研究热点,本文利用它们各自的优点将叁者结合起来,提出了一种基于Block-DOM的WEB页面正文信息提取方法。该方法简化了其相应技术,首先将待提取的页面进行清洗、解析、判别、分块、净化等处理,然后再提取出正文信息。实验证明,该方法快速准确,具有一定的有效性。(2)基于块和标签用途的WEB页面正文信息提取本文提出一种基于块和标签用途的WEB页面正文信息提取方法,在DOM树和VIPS算法的基础上,总结出了利用块和标签用途去提取页面正文信息的规则,并且设计了一个噪音词过滤器,将Web页面中一些类似用户评论、留言等文本去除掉。进一步通过实验建立了一个模拟浏览器,该浏览器中拥有四个模块,分别是解析模块、分块模块、文本提取模块和噪音词过滤模块。实验证明,该方法能准确高效的提取出主题信息。(本文来源于《广西师范大学》期刊2013-04-01)

于静[9](2013)在《基于页面主体提取的WEB信息抽取技术研究》一文中研究指出随着Internet的飞速发展,互联网上的数据量呈爆炸性增长,使得Web已经成为全球信息传播与共享的重要渠道,而网页固有的半结构性以及网络上存在大量的与网页主题无关的信息,使人们无法快速准确的获得所需要的信息。这种情况下,研究如何从Web中抽取出人们所需要的信息已经变得越来越重要。国内外学者在这方面已经有了大量的研究。然而通过对现有Web信息抽取方法和当前Web网页特点的分析,发现现有抽取技术存在自动化程度不够和抽取结果不准确的问题。为了弥补以上的两个不足,本文提出了一种基于页面主体提取的Web信息抽取方法,主要包括页面预处理、页面主体提取、抽取规则生成、信息抽取四个模块。页面预处理模块利用JTidy完成对HTML标签的格式化,以及页面中一些与主题无关内容的去除。页面主体提取模块使用HTMLParser对页面进行解析,得到与Web页面对应的结构树,然后分析结构树,使用基于MMTD的算法识别出页面的主体部分。而抽取规则生成模块则使用了XPATH和XSLT,针对页面主体生成一类页面的抽取规则。信息抽取模块将抽取规则运用于待抽取页面便得到我们需要的信息,并将其存入数据库,以方便人们查找并使用。在以上的处理过程中,Web信息的抽取是在页面主体提取的基础上完成的,这也是说此方法是基于页面主体提取的原因。本文提出的方法属于自动的信息抽取,整个抽取过程几乎完全不需要人工参与,与已有研究相比,自动化程度较高;且利用了强大而灵活的XPATH和XSLT使得规则生成的过程大大简化,同时提高了抽取方法的通用性和准确性。根据以上方法设计并实现了基于页面主体提取的Web信息抽取原型系统。系统通过不同功能模块的结合达到Web信息抽取目的,并为用户提供可视化操作界面,方便操作。最后,使用此系统对若干主流网站进行试验,实验结果证明了本文方法的有效性和正确性。(本文来源于《南京邮电大学》期刊2013-04-01)

李军,陈君,王玲芳,倪宏[10](2013)在《一种垂直页面分割与信息提取方法的研究》一文中研究指出在综合分析不同页面分割算法和适用条件的基础上,研究针对垂直型网站的页面分割和信息提取算法。以DOM(document object model)树为基础,提出页面内容聚集度的概念,统计获取页面分割标签和样式层迭表映射,对页面进行分割;采用正文识别和前缀匹配的方法,完成从页面分块信息提取。结合实际的网络视频项目需求,实现面向垂直型网站页面的分割和信息提取器。实验结果表明,该网页分割和信息提取方法对垂直页面信息提取具有良好的性能,满足实际项目需求。(本文来源于《计算机应用研究》期刊2013年03期)

页面提取论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

模型分割在实际工程中有重要的应用价值。针对叁维书籍模型的点云分割,提出了一种基于纹理的单侧书籍页面提取方法。对于获取的叁维书籍模型以及散乱纹理图像,首先将模型的散乱纹理转化为有序纹理,将像素值从RGB空间转换到HSI空间,根据H(色调)和I(亮度)去掉模型背景点云;然后根据书脊线像素在有序纹理图像中的分布特性,计算纹理图像中的书脊线,再利用最小二乘法拟合出书脊线的叁维空间方程,进而求出分割左右页面的空间平面,最终完成单侧页面的提取。实验结果表明,该方法针对叁维书籍模型能够快速稳定地提取出单侧页面,具有较高的准确性。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

页面提取论文参考文献

[1].丛小亮,余翔湛.HTTPS页面指纹特征对象主动提取系统的设计与实现[J].智能计算机与应用.2018

[2].童立靖,王凤鹤,李斌.基于纹理的叁维书籍模型单侧页面提取方法[J].图学学报.2018

[3].马凯凯,钱亚赫,阮东跃.基于文本频率页面分割算法对论坛正文提取[J].中国水运(下半月).2018

[4].李斌.叁维图书模型的页面提取方法研究[D].北方工业大学.2017

[5].王彬琦.基于特征提取的HTTPS页面分类检测系统的设计与实现[D].哈尔滨工业大学.2016

[6].胡瑞.基于Web页面结构的网页数据提取研究[D].安徽大学.2016

[7].张洪庆.支持动态页面的快速URL提取方法研究[D].哈尔滨工业大学.2013

[8].杨小虎.Web页面正文信息提取算法[D].广西师范大学.2013

[9].于静.基于页面主体提取的WEB信息抽取技术研究[D].南京邮电大学.2013

[10].李军,陈君,王玲芳,倪宏.一种垂直页面分割与信息提取方法的研究[J].计算机应用研究.2013

标签:;  ;  ;  

页面提取论文-丛小亮,余翔湛
下载Doc文档

猜你喜欢