龙源期刊网 http://www.qikan.com.cn
基于Python爬虫技术的网页数据抓取与分析研究
作者:熊畅
来源:《数字技术与应用》2017年第09期
摘要:基于Python爬虫技术简单易用的特点,利用python语言编写爬虫程序对国家广播电视总局电视剧电子政务平台的电视剧备案数据进行了爬取。并对爬取的电视剧备案数据进行了统计分析,得出相关结论。 关键词:Python;爬虫;数据分析
中图分类号:TP311.11 文献标识码:A 文章编号:1007-9416(2017)09-0035-02 1 爬虫技术简介
网络爬虫,是一种通过既定规则,自动地抓取网页信息的计算机程序。爬虫的目地在于将目标网页数据下载至本地,以便进行后续的数据分析。爬虫技术的兴起源于海量网络数据的可用性,通过爬虫技术,我们能够较为容易的获取网络数据,并通过对数据的分析,得出有价值的结论。
Python语言简单易用,现成的爬虫框架和工具包降低了使用门槛,具体使用时配合正则表达式的运用,使得数据抓取工作变得生动有趣。 2 案例分析 2.1 网页说明
目标数据是历年来的全国电视剧拍摄备案数据。数据源于国家广播电视总局电视剧电子政务平台的公开信息,如图1所示,具体网址URL:“http:
//dsj.sarft.gov.cn/tims/site/views/applications.shanty?appName=note”。
我们需要爬取历年来每个月的备案公示信息列表数据,如图2,并进行汇总和分析。 2.2 爬虫程序设计并实现
首先,我们用BeautifulSoup解析器来解析URL的文本信息,分析网页HTML文本和页面规则后,制定以下步骤来抓取目标数据。
①抓取首页码和尾页码后,循环抓取列表页信息;