好文档 - 专业文书写作范文服务资料分享网站

八爪鱼爬虫详细使用教程

天下 分享 时间: 加入收藏 我要投稿 点赞

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

八爪鱼爬虫详细使用教程

作为一款简单易用的网页数据采集工具,八爪鱼的强大功能早已深入人心。为了让更多人学会使用八爪鱼,小编整理了一个以采集百度贴吧帖子内容为例的教程,提供给大家操作学习。

本文以采集百度贴吧帖子内容为例,介绍八爪鱼爬虫的使用教程。

在这里仅仅以其中一个帖子举例说明:

http://tieba.http://www.cmpx.com.cn//p/5492396988 旅行贴吧的某个帖子(【集中贴】2018年1、2月出发寻同行的请进来登记 )

采集内容包括:贴吧帖子内容,贴吧用户昵称

使用功能点:

? 创建循环翻页 ? 修改Xpath

步骤1:创建百度贴吧帖子内容采集任务

1)进入主界面,选择“自定义采集”

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

2)将要采集的网站URL复制粘贴到输入框中,点击“保存网址”

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

步骤2:创建循环翻页

1)网页打开以后,鼠标下拉到最底部,选择下一页,提示框中选择“循环点击下一页”

2)鼠标选中帖子的回复,在右面的提示框中选择“选中全部”

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

2)如果要采集贴吧的其他信息,也可以选择,这里选择的是贴吧昵称,贴吧昵称。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

接着选择“采集元素”,把不必要的字段删除。

步骤3:修改XPATH

1)保存采集后发现有些帖子内容没有正确采集,所以需要修改XPATH,打开右上角的流程按钮

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

2)点击循环选项,“循环方式”选择“不固定元素列表”,“不固定元素列表”填入XPATH://div[@class=\ \。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

2) 点击“提取数据”,修改贴吧帖子内容XPATH。选中帖子内容字段,依次点击“自定义数据字段”->“自定义元素定位方式”,并设置:

元素匹配的XPATH: //div[@class=\

j_l_post

l_post_bright

\ clearfix\相对XPATH:

//div[@class=\ clearfix\

选中帖子内容字段

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

自定义数据字段位置

帖子内容字段数据提取xpath设置

3) 修改贴吧用户昵称XPATH。选中贴吧用户昵称字段,依次点击“自定义数据

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

字段”->“自定义元素定位方式”,并设置:

元素匹配的XPATH:

//div[@class=\j_l_post l_post_bright \相对XPATH:

//li[@class=\

选中贴吧用户昵称字段

步骤5:百度贴吧帖子内容数据采集及导出

1)打开流程按钮,修改采集字段名称,点击“保存并开始采集”

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

启动本地采集

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

集完成后,会跳出提示,选择“导出数据”选择“合适的导出方式”,将采集好的数据导出,这里我们选择excel作为导出为格式,一份完好的百度贴吧帖子内容就采集好了,数据导出后如下图

本文来自于:http://www.bazhuayu.com/tutorialdetail-1/tiebashendu.html

相关采集教程: 电商爬虫

http://www.bazhuayu.com/tutorial/hottutorial/dianshang 京东爬虫

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

http://www.bazhuayu.com/tutorial/hottutorial/dianshang/jd 天猫爬虫

http://www.bazhuayu.com/tutorial/hottutorial/dianshang/tmall 亚马逊爬虫

http://www.bazhuayu.com/tutorial/hottutorial/dianshang/amazon

电商爬虫教程

http://www.bazhuayu.com/tutorial/hottutorial/dianshang/dsqita 东方财富爬虫

http://www.bazhuayu.com/tutorial/hottutorial/jrzx/eastmoney 同花顺爬虫

http://www.bazhuayu.com/tutorial/hottutorial/jrzx/tonghuashun 金融界基金爬虫

http://www.bazhuayu.com/tutorial/hottutorial/jrzx/jinrongjie

八爪鱼——百万用户选择的网页数据采集器。

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

八爪鱼爬虫详细使用教程

八爪鱼·云采集网络爬虫软件www.bazhuayu.com八爪鱼爬虫详细使用教程作为一款简单易用的网页数据采集工具,八爪鱼的强大功能早已深入人心。为了让更多人学会使用八爪鱼,小编整理了一个以采集百度贴
推荐度:
点击下载文档文档为doc格式
5cc266huzg9sc9l3ppnv1xep036fj70198n
领取福利

微信扫码领取福利

微信扫码分享