Python爬虫速成指南让你快速的学会写一个最简单的爬虫

由天下分享时间：2025/1/10 12:13:40 加入收藏我要投稿点赞

本文主要内容：以最短的时间写一个最简单的爬虫，可以抓取论坛的帖子标题和帖子内容。

本文受众：没写过爬虫的萌新。入门 0.准备工作

需要准备的东西： Python、scrapy、一个IDE或者随便什么文本编辑工具。 1.技术部已经研究决定了，你来写爬虫。

随便建一个工作目录，然后用命令行建立一个工程，工程名为miao，可以替换为你喜欢的名字。

scrapy startproject miao

随后你会得到如下的一个由scrapy创建的目录结构

在spiders文件夹中创建一个python文件，比如miao.py，来作为爬虫的脚本。内容如下：

import scrapyclass NgaSpider(scrapy.Spider): name = \ host = \ # start_urls是我们准备爬的初始页 start_urls = [ \ ] # 这个是解析函数，如果不特别指明的话，scrapy抓回来的页面会由这个函数进行解析。 # 对页面的处理和分析工作都在此进行，这个示例里我们只是简单地把页面内容打印出来。 def parse(self, response): print response.body 2.跑一个试试？

如果用命令行的话就这样： cd miao scrapy crawl NgaSpider

你可以看到爬虫君已经把你坛星际区第一页打印出来了，当然由于没有任何处理，所以混杂着html标签和js脚本都一并打印出来了。