八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
八爪鱼基本流程教程
在八爪鱼采集原理中我们讲过,八爪鱼是模拟人浏览网页的行为进行数据采集的,比如打开网页、点击某个按钮等。在八爪鱼采集器客户端中,我们需自行配置这些流程。
八爪鱼数据采集,一般有以下几个基本流程,其中打开网页、提取数据是不可或缺的,其他流程可根根据自身需求进行增删。
1、打开网页
本步骤根据设定的网址打开网页,一般为网页采集流程的第一个步骤,用来打开指定的网站或者网页。如果有多个类似的网址需要分别打开执行同样的采集流程,则应该放置在循环的内部,并作为第一个子步骤。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
2、点击元素
本步骤对网页上指定的元素执行鼠标左键单击动作,比如点击按钮、点击超链接等。
3、输入文本
本步骤在输入框中输入指定的文本,例如输入搜索关键词,输入账号等。 将设定的文本输入到网页的某个输入框中,如使用搜索引擎时输入关键字。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
4、循环
本步骤用来重复执行一系列步骤,根据配置不同,支持多种循环方式。1)循环单个元素:循环点击页面中的某个按钮; 2)循环固定元素列表:循环处理网页中固定数目的元素; 3)循环不固定元素列表:循环处理网页中不固定数目的元素; 4)循环URL列表:循环打开一批指定网址的网页,然后执行同样的处理步骤;5)循环文本列表:循环输入一批指定文字,然后执行同样的处理步骤。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
5、提取数据
本步骤根据提取数据模板的配置,从网页中提取数据,同时还可添加特殊字段:当前时间、固定字段、添加空字段、添加当前网页网址等。
另外,八爪鱼的规则市场有很多已经做好的规则,可直接下载后导入八爪鱼使用。
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
1、如何下载采集规则
八爪鱼采集器内置了规则市场,由用户分享配置好的采集规则,互帮互助。 使用规则市场下载规则,可以不用花费时间研究和配置采集流程。很多网站的采集规则都可以在规则市场中搜索到,下载运行即可采集。
下载规则有以下三种方式:打开八爪鱼官网(http://www.bazhuayu.com)->爬虫规则;打开八爪鱼采集器客户端->市场->爬虫规则;直接在浏览器中访问数多多官网(http://www.dataduoduo.com)->爬虫规则。
2、如何使用规则
一般从规则市场下载的规则是.otd为后缀的规则文件,4.*以后的版本中会自动导入下载的规则文件。以前的版本中需要手动导入下载的规则文件。将下载好的规则存储到相应位置。然后打开八爪鱼客户端->任务->导入->选择任务。从邮件或者其他即时通讯软件接受到的
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
规则同理。
相关采集教程:
八爪鱼使用功能点视频教程
http://www.bazhuayu.com/tutorial/videotutorial/videognd 八爪鱼爬虫软件入门准备
http://www.bazhuayu.com/tutorial/xsksrm/rmzb
八爪鱼爬虫软件功能使用教程 http://www.bazhuayu.com/tutorial/gnd ajax网页数据抓取 http://www.bazhuayu.com/tutorial/gnd/ajaxlabel 特殊翻页操作 http://www.bazhuayu.com/tutorial/gnd/teshufanye 网页数据导出 http://www.bazhuayu.com/tutorial/gnd/dataexport 云采集功能点说明 http://www.bazhuayu.com/tutorial/gnd/yuncaiji
八爪鱼·云采集网络爬虫软件
www.bazhuayu.com
八爪鱼——90万用户选择的网页数据采集器。
1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。
2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。
3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。
4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。