好文档 - 专业文书写作范文服务资料分享网站

八爪鱼采集器使用要点

天下 分享 时间: 加入收藏 我要投稿 点赞

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

八爪鱼采集器使用要点

不少用户会在工单或者是扣扣群里咨询八爪鱼采集相关的问题,我们把这些问题做了整理,做成一份使用要点,希望它们能帮助你解决在使用八爪鱼采集器遇到的问题。

1、手动检查工作流设计器中的规则

采集过程中出现的错误可以归类为五个方面,分别是网页问题、规则问题、定位模拟问题、采集器问题、以及云端问题,当可以先检查配置的规则是否有效,寻找存在的问题,最好在运行任务之前手动检查工作流程中的规则。这样可以看到哪些步骤在可视内置浏览器和数据字段中不起作用。因此,一旦发现错误,可以修改相应地规则。查看下面的教程可以了解规则排错的具体方法:

八爪鱼7.0版本——基本排错教程:

http://www.bazhuayu.com/tutorialdetail-1/jbpc_7.html

2、设置正确的超时和滚动时间

有时会发现,即使配置了正确的规则,并且可以在手动检查规则时获取数据,但是在启动提取时,数据却会遗漏。这是因为没有设置高级选中的Ajax, 最简单的方法是在规则中选中“打开网页”和“点击元素”的操作下设置AJAX加载。另外,您可以在工作流设计器的不同操作下设置等待时间,以便确保加载所需的数据。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

有时网页会出现这样的情况,除非向下滚动,否则不会显示某些内容,因此需要在“打开网页”这一步骤中设置滚动时间,否则可能会遗漏设置滚动时间而错过某些数据。选择向下滚动的方式并设置适当的滚动时间。这对采集到完整的数据也很重要。

但在执行上述步骤之前,您应该记住,所有步骤都应在页面完全加载后进行; 如果不是,即使您更改了规则,该规则仍然无效。

此外,我们不建议同时选择“在新标签页中打开”和“AJAX加载页面”,除非八爪鱼仍然无法打开某些网站。

具体操作可以参照这个教程:

http://www.bazhuayu.com/tutorialdetail-1/ajaxdjfy_7.html

3、手动修改XPath

正确使用XPath是使用八爪鱼采集数据的关键。列如翻页,缺失数据和不规则值域等步骤大多数时间涉及XPath的更改。所以强烈建议用户学习一些关于XPath的知识。只需稍微了解一下XPath就可以帮助您解决使用八爪鱼时遇到的许多问题。下面的教程可以帮助您快速学习XPath。

XPath入门1:

http://www.bazhuayu.com/tutorialdetail-1/xpathrm1.html

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

XPath入门2:

http://www.bazhuayu.com/media/44656/xpath.pdf

4、设置缓存设置

有时我们会发现内置浏览器在“打开页面”的操作下未打开需要采集的网址。这可能是因为打开网站的次数过多,并且计算机记录了缓存。所以需要选择在打开网页前清除缓存,然后打开需要的网站即可。

设置缓存的另一个例子是提取需要登录的网站。登录后,您可以选择“使用指定的Cookie”来记录您的账户信息,以便您不需要一次又一次检查登录步骤。这也会保护你的个人信息。

cookie指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密),在八爪鱼里获取登陆后的cookie记住登陆状态达到采集数据的目的。

cookie登陆方法:

http://www.bazhuayu.com/tutorialdetail-1/cookie70.html

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

相关采集教程:

公众号文章采集:http://www.bazhuayu.com/tutorialdetail-1/wxcjimg.html 企业名录采集:http://www.bazhuayu.com/tutorialdetail-1/qichachacj.html 邮箱采集:http://www.bazhuayu.com/tutorialdetail-1/tiebayxcj.html qq群号码采集:

http://www.bazhuayu.com/tutorialdetail-1/qqqunhmcj.html

淘宝客采集:http://www.bazhuayu.com/tutorialdetail-1/tbkgyjcj.html 今日头条采集:http://www.bazhuayu.com/tutorialdetail-1/jrtt-7.html 百度地图数据采集:

http://www.bazhuayu.com/tutorialdetail-1/cjbddtsj-7.html

八爪鱼——90万用户选择的网页数据采集器。

八爪鱼·云采集网络爬虫软件

www.bazhuayu.com

1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。

2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。

3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。

4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

6b7yg3cz4p6rgfk15sw18xzko02xvg00fw4
领取福利

微信扫码领取福利

微信扫码分享