好文档 - 专业文书写作范文服务资料分享网站

Python爬虫速成指南让你快速的学会写一个最简单的爬虫

天下 分享 时间: 加入收藏 我要投稿 点赞

Python爬虫速成指南让你快速的学会写一个最简单的爬虫

本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容。

本文受众:没写过爬虫的萌新。 入门 0.准备工作

需要准备的东西: Python、scrapy、一个IDE或者随便什么文本编辑工具。 1.技术部已经研究决定了,你来写爬虫。

随便建一个工作目录,然后用命令行建立一个工程,工程名为miao,可以替换为你喜欢的名字。

scrapy startproject miao

随后你会得到如下的一个由scrapy创建的目录结构

在spiders文件夹中创建一个python文件,比如miao.py,来作为爬虫的脚本。 内容如下:

import scrapyclass NgaSpider(scrapy.Spider): name = \ host = \ # start_urls是我们准备爬的初始页 start_urls = [ \ ] # 这个是解析函数,如果不特别指明的话,scrapy抓回来的页面会由这个函数进行解析。 # 对页面的处理和分析工作都在此进行,这个示例里我们只是简单地把页面内容打印出来。 def parse(self, response): print response.body 2.跑一个试试?

如果用命令行的话就这样: cd miao scrapy crawl NgaSpider

你可以看到爬虫君已经把你坛星际区第一页打印出来了,当然由于没有任何处理,所以混杂着html标签和js脚本都一并打印出来了。

Python爬虫速成指南让你快速的学会写一个最简单的爬虫

Python爬虫速成指南让你快速的学会写一个最简单的爬虫本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容。本文受众:没写过爬虫的萌新。入门0.准备工作需要准备的东西:Python、scrapy、一个IDE或者随便什么文本编辑工具。1.技术部已经研究决定了,你来写爬虫。随便建一个工作目录,然后
推荐度:
点击下载文档文档为doc格式
79yjz9vmd5036aw5tvxo0daes3y30z00x00
领取福利

微信扫码领取福利

微信扫码分享