导读:本文包含了网页分类论文开题报告文献综述、选题提纲参考文献及外文文献翻译,主要关键词:网页,向量,特征,计量学,目的,组合,神经网络。
网页分类论文文献综述
魏欢[1](2019)在《基于二元分类的伪装型垃圾网页高效检测方法》一文中研究指出为了提高伪装型垃圾网页检测能力,提出一种基于二元分类的伪装型垃圾网页检测算法.对采集的各类网站网页样本进行暗链域名特征分析和网页爬虫分析,构建伪装型垃圾网页分布的相关文本和图片信息特征,对伪装型垃圾网页样本集采用垂直爬虫和异常特征挖掘方法进行垃圾信息过滤;以网页赋权垃圾信息为测试集,采用二元分类方法对伪装型垃圾网页进行路径模板分析,对全部的异常样本进行垂直爬虫检索;提取伪装型垃圾网页的相关文本的字体颜色与网页背景色,将伪装型垃圾网页的特征提取结果输入到二元语义分类器中进行数据分类,结合大数据融合聚类方法实现伪装型垃圾网页检测.仿真结果表明:采用该方法进行伪装型垃圾网页检测的准确性较高,抗垃圾网页和暗链接干扰能力较好,提高了网页安全监控能力.(本文来源于《兰州工业学院学报》期刊2019年04期)
库尔班·麦麦提,吾守尔·斯拉木[2](2019)在《网页分类技术研究现状与发展趋势的图谱分析》一文中研究指出以Web of Science中1998—2017年间收录的1 277篇网页分类领域文献为研究对象,采用CiteSpace可视化工具,并使用科学计量学方法,系统回顾了网页分类领域中主要的研究机构、研究热点及研究脉络等内容。研究发现,目前的网页分类技术已完成理念界定和概念推广,并形成较为完善的研究体系结构。在该领域中,中国科学院和北京大学具有较强的科研能力,而美国在国际影响力上处于领先地位。另外,文中发现机器学习和数据挖掘是近几年网页分类领域的研究热点。文中的分析结果将为我国网页分类技术领域的研究提供一些参考。(本文来源于《现代电子技术》期刊2019年13期)
邓立[3](2019)在《基于多特征和组合分类器的网页分类》一文中研究指出网络上有着丰富的信息资源,并且随着时间的推移,网上的信息量爆炸式地增长。网页的分类有助于网页信息检索和管理,如开发和维护网页目录、改进搜索引擎质量、过滤网页内容等。网页是一种半结构化的数据,不同网页的内容和结构不太一样,且网页上有广告、版权声明等信息,这给网页的分类带来了挑战。本文研究网页分类方法,以提高网页分类的性能。首先,提出一种融合文本和结构特征的网页分类方法。采用树状分布的HTML标签表示网页的结构,遍历HTML标签构建向量表示网页结构特征。通过向量转化工具word2vec将<title>、<meta>等关键标签中的文本转化为向量表示文本特征,将文本特征和结构特征两种不同的特征以向量的形式融合起来,对网页进行分类。实验结果表明,融合文本和结构特征的网页分类方法更加全面和有效,取得了比单一特征更好的分类效果。其次,提出一种基于置信度的组合分类器的方法,然后基于文本和结构特征的融合以及分类器的组合构建网页分类系统。不同分类器有不同的特点,多个分类器的组合可以实现分类器性能的互补。我们计算一组样本的分类准确率作为相应分类结果的置信度,接着基于置信度采用投票、比较大小等决策策略,组合多个子分类器,得出组合分类器的分类结果。基于特征融合和分类器组合的网页分类系统包括数据采集与处理模块、特征提取与向量化模块、子分类器分类模块和组合分类模块。在Amazon数据集、7-web-genres数据集、DMOZ数据集中进行实验,网页分类的准确率分别达到94.2%、95.4%、95.7%,提出的网页分类方法相比同类网页分类方法准确率更高。第叁,提出一种移动端网页的分类方法。移动端设备小屏、竖屏的设计使得移动端网页呈现列表式的简单结构,网页内容多以信息流的形式出现,重要的信息出现在前面。针对移动端网页的这些特征,我们提出采用信息流定位的算法,提取主旨信息、头部信息和信息流信息进行分类。采集移动端网页进行实验,结果表明,我们提出的移动端网页分类方法准确率达到97.2%。(本文来源于《浙江大学》期刊2019-07-01)
库尔班·麦麦提[4](2019)在《基于LSTM和迁移学习的网页主题分类方法研究与实现》一文中研究指出文本分类的研究相对较早,而且拥有比较成熟的技术,因此网页分类研究主要以文本分类为基础。当前大多数网页分类方法属于浅层学习方法,由于语言的语法特殊、语义多元、隐寓性表达等特点,浅层的学习方法存在文本表征能力有限、依赖人工抽取特征等不足,难以获得较高的网页分类准确率。因此,本文基于深度学习方法开展网页主题分类研究。在自然语言处理领域,深度学习模型具有很强的针对性,及必须针特定任务训练特定的模型。众所周知,深度学习模型的训练及效果依赖于训练数据的规模。但对训练数据较少的一些任务,这将是一个刺手的问题,因此而限制了深度学习模型在小样本文本信息处理领域的应用。另外,由于深度学习模型结构复杂,即使拥有足够的训练数据,针对特定任务重新训练模型的成本较高。针对上述问题,本文以网页文本主题分类为研究目标,深入研究了网页文本主题分类技术,并结合深度学习和迁移学习,提出了一种可用于中文和维吾尔文分类问题的语言模型的微调方法。实验证明,基于语言模型的微调方法可有效解决中文和维吾尔文网页文本主题分类任务。本文的研究工作主要有一下叁点:(1)构建了语言建模和网页主题分类数据集。利用网络爬虫技术从人民网、天山网等新闻网站中收集了中文和维吾尔文网页文本。构建了语言建模数据集和网页文本主题数据集。(2)利用有差异的参数优化方法。在深度神经网络中,不同层所表示的信息时有差异的,因此不同层设置不同的学习率,能够防止灾难性的遗忘,并加快模型的收敛速度。(3)提出了基于深度学习和迁移学习的网页主题分类方法,该方法能够解决高质量数据少、深度学习模型训练时间长等问题。相较于仅用目标任务数据训练,该方法在中文和维吾尔文网页主题分类的分类准确率分别提高了5.62%和5.87%,具有良好的分类效果。(本文来源于《新疆大学》期刊2019-06-30)
陈博深[5](2019)在《代价敏感的多分类恶意网页识别系统研究与实现》一文中研究指出近年来,互联网的蓬勃发展为人们的日常生活创造了巨大的便利。但同时,便捷的网络服务也吸引了众多的攻击者们通过恶意软件、网络钓鱼、和垃圾邮件等方式进行非法牟利,这些网页被称为恶意网页。它们都在不知情用户进行访问时对客户端系统发起攻击,但这些不法活动的目的和手段各不相同,不同种网页的实际数量和误分类的代价也有很大差异。目前的研究主要是针对某一类恶意网页,实现恶意网页多分类的研究还相对较少,对于机器学习方法分类的研究中提取的特征也还有待完善。本文针对上述问题,提出了利用CSS特征和URL特征结合的有监督机器学习的分类方法,同时考虑数据不均衡和误分类代价不同的情况,提出了“误分类代价和”作为新的度量指标,对钓鱼网页、恶意软件下载网页和良性网页进行叁分类研究。论文的主要成果有:首先提出了全新的CSS特征,并证明了这些特征在对恶意软件下载的恶意网页识别的有效性,通过组合和新增特征,本文对全部恶意软件下载网页识别准确率提升稳定至92%,对利用重定向的恶意软件下载网页的识别准确率最高可达到99%,时间性能也有所提高。其次推导出叁分类误分类代价度量指标,考虑实际数据比例和误分类代价进行大量实验,证明新指标的合理性和本文分类方法的合理性。最后将本文理论分析和工程技术相结合,设计实现了一个针对钓鱼网页和恶意软件下载网页的多分类恶意网页识别系统,并测试了系统的准确性和稳定性。(本文来源于《北京邮电大学》期刊2019-05-20)
吴琦炜[6](2019)在《基于深度学习的高效网页分类技术的研究与分析》一文中研究指出近年来,随着网络通信技术的飞速发展,互联网逐步融入到日常生活的各个方面,网页数量更是呈现指数式增长趋势。面对海量且复杂的网页信息,如何高效地组织和管理这些信息日趋成为一个棘手的问题。网页分类作为互联网信息组织和管理的一个基础步骤,在搜索引擎、主题爬虫、恶意网页识别和维护目录式网站等许多应用中发挥着至关重要的作用。传统Web挖掘通常利用网页特征工程结合机器学习算法进行网页分类,然而随着网页结构的复杂化,网页的有效特征提取越来越困难,从而导致传统机器学习方法在网页自动分类上效果一般。因此,本文提出了基于深度学习的高效网页分类算法,针对网页的文本内容、标题等信息,利用深度神经网络,搭建一种多通道输入,复合特征抽取结构的分类模型。该模型能有效地提高网页分类的准确率,满足特定领域内网页的高效自动分类需求。本文的主要工作如下:1、分析了传统机器学习方法在网页挖掘中的优缺点并介绍了深度学习在网页分类中的特点和优势;阐述了网页数据的采集和存储技术;研究并分析了词向量技术;分析了注意力机制在网页分类问题上的可行之处;研究了卷积神经网络,循环神经网络的核心算法原理及科学应用。2、设计了基于深度学习的高效网页分类算法框架,包括数据采集和预处理;设计了词向量的预训练流程,为神经网络引入外部语义;针对网页标题、内容和结构设计了合理的神经网络特征提取模型,同时还将机器学习模型融入框架,设计了校正机制以提升分类效果。3、完成了基于深度学习的网页分类模型的训练和调优。利用了数据生成器和多GPU并行的方式对神经网络模型进行了高效训练,并在训练过程中实现了结果反馈机制;借助高效的训练方式,对算法模型进行了参数调优,并针对多次调优实验结果进行了详细分析。(本文来源于《北京邮电大学》期刊2019-03-01)
吴树芳,朱杰,李子星[7](2018)在《修订版布鲁姆教育目标分类对网页设计与制作教学的启示》一文中研究指出修订版布鲁姆教育目标分类理论包括知识维度和认知过程维度,两个维度均采用由易到难的思路分别对知识和认知进行分层。为提高网页设计课程的课堂教学效率,结合课程特点,依据布鲁姆教育目标分类理论,探讨该课程的教学目标设定,以及教师在行课过程中教学方法的使用。研究成果对其他课程的教学具有启示意义。(本文来源于《教育现代化》期刊2018年53期)
周文文[8](2018)在《基于文本语义图的网页分类算法研究》一文中研究指出伴随互联网的高速发展,互联网网页数量呈爆炸式增长。作为信息的载体,互联网上每时每刻都在产生大量主题各异的Web网页文本,数据量巨大,且内容越来越丰富。如何从海量的、动态的信息资源中获取所需的信息,成为一个重要的研究课题。Web网页分类技术能够实现对互联网中海量数据的快速检索、过滤、分类和归档,提高人们对于网络数据的利用率,降低搜索信息的时间,是网页大数据处理的基础。但基于统计的网页分类方法往往存在忽略词语语义和网页结构信息的问题,并且在分类过程中存在特征向量维度过高的现象,这会增加运算负担,进而影响分类效率。为了解决基于统计的网页分类算法存在的问题,提出一种基于网页文本语义图的Web网页分类算法。该算法通过搭建网页语义图来刻画网页语义信息,并在此基础上进行特征权值计算,进而实现网页分类,提高网页分类效率。同时,对特征选择算法做出改进,以进一步降低空间维度,增大信息密度。本文做了以下工作:(1)提出LP-TIF特征选择算法。论文针对TF-IDF算法中词频TF对网页文本内部信息表现不足的问题,提出一种在词频基础上融合词性、词位置等多个特征来表现词语对网页重要性的改进方法。然后引入词袋模式,利用同义词、相似词精简,对特征空间进行整合规范,进一步降低空间维度。(2)提出网页文本语义图搭建方法。论文提出一种兼顾词语相似性和文本相关性的网页语义图搭建方法。使用特征词词袋集作为语义图节点集,先利用词语相似性为语义图搭建相似边,然后提出一种新的基于共现词度量词语相关性的方法搭建相关边,最后对边进行合并,完成语义图搭建。(3)提出WordRank权值计算方法。论文在图结构的基础上,引入PageRank节点排序算法对特征节点权重进行计算,并结合文本语义图作为加权有向图的特点,针对节点权重和语义边权重对算法做出适应性改进,提出WordRank权重计算方法。最后分别对特征选择算法和基于网页文本语义图的网页分类算法的有效性进行验证。实验表明,相较于TF-IDF算法,基于LP-TIF和词袋的特征选择算法可有效降低空间维度,提高算法时间效率。并且,基于文本语义图的网页分类算法不仅能够很好的提高分类准确率,还可以优化网页分类效果,提高算法的稳定性。(本文来源于《江苏科技大学》期刊2018-12-20)
张雁,刘才铭[9](2018)在《一种网页访问目的分类方法》一文中研究指出对访问网页的目的进行分类,可以促进网络管理和网站应用设计的优化。设计一种对网页访问目的进行分类的方法,构建类型编码库和特征库,用于存储网页访问目的类型和访问活动特征信息,通过监视网页访问活动,并对类型特征进行扫描,识别出访问目的类型,同时对访问目的类型及其特征进行动态扩充,以识别新的类型。(本文来源于《现代计算机(专业版)》期刊2018年26期)
李明军[10](2018)在《基于内容的网页采集分类系统的设计与实现》一文中研究指出随着互联网的日益繁荣,互联网上的信息资源也越来越多,虽然方便了人们的知识获取,但是也带来了信息量过大,噪音信息较多的问题,反而影响了用户对于有效信息的寻找。互联网新闻作为一种主流的互联网信息来源,相对于其他信息来源具有更大的研究价值,对互联网新闻准确高效地采集并分类是十分必要的,在信息检索和数据挖掘领域都有着重要的意义。基于网页内容对新闻进行分类可以充分考虑新闻内容的语义,避免了网站对新闻误分类或未分类带来的采集结果错误,有着更好的分类效果。论文对网页正文采集技术进行了深入的研究,结合新闻类网站的特点,制定了较为有效的采集策略和更新策略,保证了新闻采集的高效性。由于新闻网站来源较多,网站改版较为频繁,基于模板的正文提取技术己经不能保证提取的准确率,论文通过对网页正文提取技术进行分析比较,得到了一种基于文本分布的通用正文提取算法,并通过实验确定了算法中的最优值,减少了人工编写规则带来的时间成本。对于文本的分类,论文研究并分析了文本分类的整体流程,选用Labeled LDA进行文本的特征表示,相对于传统的向量空间模型降低了特征维度,避免了语义信息的丢失,将LDA模型扩展为有监督的分类模型。通过对文本分类方法的比较,选用支持向量机作为文本特征的分类器。论文选取搜狗中文实验室的新闻语料,采用JGibbLabeledLDA和Scikit-learn对LLDA-SVM算法进行了实现,通过与其他方法分类结果的对比,验证了分类方法的有效性,使用训练好的模型为新文本的分类做准备。论文基于B/S架构对网页的采集和分类系统进行了实现,给出了各系统模块的具体设计和实现,在采集性能和分类准确性两个方面对系统进行了评估,验证了系统的可行性。(本文来源于《东南大学》期刊2018-05-28)
网页分类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
以Web of Science中1998—2017年间收录的1 277篇网页分类领域文献为研究对象,采用CiteSpace可视化工具,并使用科学计量学方法,系统回顾了网页分类领域中主要的研究机构、研究热点及研究脉络等内容。研究发现,目前的网页分类技术已完成理念界定和概念推广,并形成较为完善的研究体系结构。在该领域中,中国科学院和北京大学具有较强的科研能力,而美国在国际影响力上处于领先地位。另外,文中发现机器学习和数据挖掘是近几年网页分类领域的研究热点。文中的分析结果将为我国网页分类技术领域的研究提供一些参考。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
网页分类论文参考文献
[1].魏欢.基于二元分类的伪装型垃圾网页高效检测方法[J].兰州工业学院学报.2019
[2].库尔班·麦麦提,吾守尔·斯拉木.网页分类技术研究现状与发展趋势的图谱分析[J].现代电子技术.2019
[3].邓立.基于多特征和组合分类器的网页分类[D].浙江大学.2019
[4].库尔班·麦麦提.基于LSTM和迁移学习的网页主题分类方法研究与实现[D].新疆大学.2019
[5].陈博深.代价敏感的多分类恶意网页识别系统研究与实现[D].北京邮电大学.2019
[6].吴琦炜.基于深度学习的高效网页分类技术的研究与分析[D].北京邮电大学.2019
[7].吴树芳,朱杰,李子星.修订版布鲁姆教育目标分类对网页设计与制作教学的启示[J].教育现代化.2018
[8].周文文.基于文本语义图的网页分类算法研究[D].江苏科技大学.2018
[9].张雁,刘才铭.一种网页访问目的分类方法[J].现代计算机(专业版).2018
[10].李明军.基于内容的网页采集分类系统的设计与实现[D].东南大学.2018