好文档 - 专业文书写作范文服务资料分享网站

网站新闻采集抓取教程 

天下 分享 时间: 加入收藏 我要投稿 点赞

八爪鱼·云采集服务平台

www.bazhuayu.com

如何抓取网易新闻的网站数据(涉及Ajax技术)

互联网数据爆发式增长,有效获取、分析这些数据,并使之产生价值,是我们的工作所在。那么,首先要思考的问题是:如何抓取网站数据?

今天分享的是,使用网页数据采集器-八爪鱼,采集网站数据的一个完整示例。采集的目标网站是网易新闻。观察发现,打开网易新闻这一网站后,当下拉页面时,会发现页面有新的数据在进行加载。分析得出,此网站涉及Ajax技术,需在八爪鱼中进行一些高级选项的设置,这一点需要大家特别注意。具体可上八爪鱼官网,学习AJAX滚动教程。

采集网站:

http://news.163.com/world/ 示例规则下载:

https://weibo.com/1875781361/FhuTqwUjk?from=page_1005051875781361_profile&wvr=6&mod=weibotime&type=comment#_rnd1503315170479

步骤1:创建采集任务

1)进入主界面选择,选择自定义模式

八爪鱼·云采集服务平台

www.bazhuayu.com

如何抓取网易新闻的网站数据图1

2)将上面网址的网址复制粘贴到网站输入框中,点击“保存网址”

八爪鱼·云采集服务平台

www.bazhuayu.com

如何抓取网易新闻的网站数据图2

3)保存网址后,页面将在八爪鱼采集器中打开,红色方框中的信息是这次演示要采集的内容

八爪鱼·云采集服务平台

www.bazhuayu.com

如何抓取网易新闻的网站数据图3

步骤2:设置ajax页面加载时间

? 设置打开网页步骤的ajax滚动加载时间

1)在页面打开后,当下拉页面时,会发现页面有新的数据在进行加载

如何抓取网易新闻的网站数据图4

所以需要进行以下设置:打开流程图,点击“打开网页”步骤,在右侧的高级选项框中,勾选“页面加载完成向下滚动”,设置滚动次数,每次滚动间隔时间,一般设置2秒,这个页面的滚动方式,选择直接滚动到底部;最后点击确定

八爪鱼·云采集服务平台

www.bazhuayu.com

如何抓取网易新闻的网站数据图5

注意:这里的滚动次数及间隔需要针对网站进行设置,测试方法可以参考八爪鱼7.0教程——AJAX滚动教程

步骤3:采集列表内容

? 选中需要采集列表中的新闻框,创建数据提取列表

1)移动鼠标,选中图片中的新闻信息框。右键点击,需采集的内容会变成绿色

八爪鱼·云采集服务平台

www.bazhuayu.com

如何抓取网易新闻的网站数据图6

注意:点击右上角的“流程”按钮,即可展现出可视化流程图。

2)系统会识别新闻信息框中的子元素,在操作提示框中,选择“选中子元素”

八爪鱼·云采集服务平台

www.bazhuayu.com

如何抓取网易新闻的网站数据图7

3)系统会自动识别出页面中的其他同类元素,在操作提示框中,选择“选中全部”,以建立一个列表循环

八爪鱼·云采集服务平台

www.bazhuayu.com

如何抓取网易新闻的网站数据图8

注意:选中字段, 鼠标放在该字段上会出现一个删除标识,点击即可删除该字段。

如何抓取网易新闻的网站数据图9

八爪鱼·云采集服务平台

www.bazhuayu.com

4)我们可以看到,页面中第一条电影评论区块的所有元素均被选中,变为绿色。选择“采集以下数据”

如何抓取网易新闻的网站数据图10

5)修改采集字段名称,点击下方红色方框中的“保存并开始采集”

八爪鱼·云采集服务平台

www.bazhuayu.com

如何抓取网易新闻的网站数据图11

步骤4:数据采集及导出

1)根据采集的情况选择合适的采集方式,这里选择“启动本地采集”

八爪鱼·云采集服务平台

www.bazhuayu.com

如何抓取网易新闻的网站数据图12

说明:本地采集占用当前电脑资源进行采集,如果存在采集时间要求或当前电脑无法长时间进行采集可以使用云采集功能,云采集在网络中进行采集,无需当前电脑支持,电脑可以关机,可以设置多个云节点分摊任务,10个节点相当于10台电脑分配任务帮你采集,速度降低为原来的十分之一;采集到的数据可以在云上保存三个月,可以随时进行导出操作。

2)采集完成后,会跳出提示,选择导出数据

八爪鱼·云采集服务平台

www.bazhuayu.com

如何抓取网易新闻的网站数据图13

3)选择合适的导出方式,将采集好的数据导出

八爪鱼·云采集服务平台

www.bazhuayu.com

如何抓取网易新闻的网站数据图14

本文以网易新闻上的数据抓取为例,抓取了网易新闻-国际分类下的新闻标题、标签、发布时间、跟帖人数等信息。大家在实操过程中,基本步骤可参考以上操作。但因由于网页形式极为丰富,网页结构不尽相同,故需具体情况具体分析。

相关采集教程:

京东商品信息采集 百度搜索结果采集 搜狗微信文章采集

八爪鱼·云采集服务平台

www.bazhuayu.com

八爪鱼——70万用户选择的网页数据采集器。 1、操作简单,任何人都可以用:无需技术背景,会上网就能采集。完全可视化流程,点击鼠标完成操作,2分钟即可快速入门。 2、功能强大,任何网站都可以采:对于点击、登陆、翻页、识别验证码、瀑布流、Ajax脚本异步加载数据的网页,均可经过简单设置进行采集。 3、云采集,关机也可以。配置好采集任务后可关机,任务可在云端执行。庞大云采集集群24*7不间断运行,不用担心IP被封,网络中断。 4、功能免费+增值服务,可按需选择。免费版具备所有功能,能够满足用户的基本采集需求。同时设置了一些增值服务(如私有云),满足高端付费企业用户的需要。

网站新闻采集抓取教程 

八爪鱼·云采集服务平台www.bazhuayu.com如何抓取网易新闻的网站数据(涉及Ajax技术)互联网数据爆发式增长,有效获取、分析这些数据,并使之产生价值,是我们的工作所在。那么,首先要思考的问题是:如何抓取网站数据?今天分享的是,使用网页数据采集器-八爪鱼,采集网站数据的
推荐度:
点击下载文档文档为doc格式
6qm209fhou570pk9t8239nplx1m54t00an2
领取福利

微信扫码领取福利

微信扫码分享