基于python的网络爬虫技术研究

论文摘要

随着互联网信息技术的快速发展,越来越多用户借助于网络搜索、在线浏览等平台,进行所需要数据信息的获取,而最常用的信息获取方式为网络爬虫。网络爬虫又被称为网络机器人,其主要利用Python程序设计语言,对浏览器网页中的HTTP超文本协议、URL地址等进行访问与爬取,不需要人为的干预或操作,就能够完成网站中数据信息的自动爬取。本文主要探讨python网络爬虫技术的主要内容,及其对网页数据爬取、永久保存的实现流程。

论文目录

0前言

1 网络爬虫技术的主要内容概述

1.1 网络爬虫技术的分类

1.2 网络爬虫技术的应用场景

2 基于python网络爬虫技术的网页数据爬取研究

2.1 网络爬虫的3种筛选技术

2.2 运用python网络爬虫技术进行网页数据爬取

2.2.1 Python及requests的安装

2.2.2 python网络爬虫技术的网页爬取

3 结语

文章来源

类型: 期刊论文

作者: 李玉香,王孟玉,涂宇晰

关键词: 网络爬虫技术,数据提取与处理,研究

来源: 信息技术与信息化 2019年12期

年度: 2019

分类: 信息科技

专业: 计算机软件及计算机应用,互联网技术

单位: 河北科技师范学院,中国石油化工股份有限公司河北秦皇岛石油分公司

基金: 2018年教育部产学合作协同育人项目“Python全栈开发人才培养实践”(201802057003),“基于Python的数据分析与智能开发人才培养实践”(201801037002)

分类号: TP312.1;TP393.092

页码: 143-145

总页数: 3

文件大小: 1079K

下载量: 2085

基于python的网络爬虫技术研究

论文摘要

论文目录

文章来源

相关论文文献