Python网络爬虫实习报告
目录
一、选题背景 .................................................................................... - 1 - 二、爬虫原理 .................................................................................... - 1 - 三、爬虫历史和分类 ......................................................................... - 1 - 四、常用爬虫框架比较 ..................................................................... - 1 - 五、数据爬取实战(豆瓣网爬取电影数据) ................................... - 2 - 1分析网页 ......................................................................................... - 2 - 2爬取数据 ......................................................................................... - 2 - 3数据整理、转换 .............................................................................. - 3 - 4数据保存、展示 .............................................................................. - 8 - 5技术难点关键点 .............................................................................. - 9 -
六、总结 ......................................................................................... - 12 -
一、 选题背景 二、 爬虫原理 三、 爬虫历史和分类 四、 常用爬虫框架比较
Scrapy框架:Scrapy框架是一套比较成熟的Python爬虫框架,是使用Python开发的快速、高层次的信息爬取框架,可以高效的爬取web页面并提取出结构化数据。Scrapy应用范围很广,爬虫开发、数据挖掘、数据监测、自动化测试等。
Crawley框架:Crawley也是Python开发出的爬虫框架,该框架致力于改变人们从互联网中提取数据的方式。
Portia框架:Portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架。
newspaper框架:newspaper框架是一个用来提取新闻、文章以及内容分析的Python爬虫框架。
Python-goose框架:Python-goose框架可提取的信息包括:<1>文章主体内容;<2>文章主要图片;<3>文章中嵌入的任heYoutube/Vimeo视频;<4>元描述;<5>元标签