Python爬虫速成指南让你快速的学会写一个最简单的爬虫
本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容。
本文受众:没写过爬虫的萌新。 入门 0.准备工作
需要准备的东西: Python、scrapy、一个IDE或者随便什么文本编辑工具。 1.技术部已经研究决定了,你来写爬虫。
随便建一个工作目录,然后用命令行建立一个工程,工程名为miao,可以替换为你喜欢的名字。
scrapy startproject miao
随后你会得到如下的一个由scrapy创建的目录结构
在spiders文件夹中创建一个python文件,比如miao.py,来作为爬虫的脚本。 内容如下:
import scrapyclass NgaSpider(scrapy.Spider): name = \ host = \ # start_urls是我们准备爬的初始页 start_urls = [ \ ] # 这个是解析函数,如果不特别指明的话,scrapy抓回来的页面会由这个函数进行解析。 # 对页面的处理和分析工作都在此进行,这个示例里我们只是简单地把页面内容打印出来。 def parse(self, response): print response.body 2.跑一个试试?
如果用命令行的话就这样: cd miao scrapy crawl NgaSpider
你可以看到爬虫君已经把你坛星际区第一页打印出来了,当然由于没有任何处理,所以混杂着html标签和js脚本都一并打印出来了。
Python爬虫速成指南让你快速的学会写一个最简单的爬虫
Python爬虫速成指南让你快速的学会写一个最简单的爬虫本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容。本文受众:没写过爬虫的萌新。入门0.准备工作需要准备的东西:Python、scrapy、一个IDE或者随便什么文本编辑工具。1.技术部已经研究决定了,你来写爬虫。随便建一个工作目录,然后
推荐度:
点击下载文档文档为doc格式