好文档 - 专业文书写作范文服务资料分享网站

微信公众平台的信息爬取

天下 分享 时间: 加入收藏 我要投稿 点赞

微信公众号的信息获取分析

目录

1微信公众平台背景 ........................................................................................................................ 2

2采集的方案及难点 ........................................................................................................................ 2

2.1微信没有公开的搜索接口 ................................................................................................. 2

2.2常规思路及问题 ................................................................................................................. 3

3国内研究现状 ................................................................................................................................ 3

3.1提出的方案 ......................................................................................................................... 3

3.1.1旧方案...................................................................................................................... 4

3.1.2新方案...................................................................................................................... 4

3.2成熟的分布式微信公众平台信息爬取 ............................................................................. 5

3.3公众号信息存储 ............................................................................................................... 12

3.4文章信息存储 ................................................................................................................... 13

4个人设想...................................................................................................................................... 14

5总结与展望.................................................................................................................................. 17

1微信公众平台背景

微信是腾讯公司于 2011 年推出的移动社交平台,目前已累计超过 6亿的注册用户。而 2012 年推出的微信公众平台依托于微信的海量用户也迅速流行起来,目前该平台的注册公众号账号早已超过 800 万,累计发布了超过 2亿的文章。依托大量的移动端用户,微信公众平台推出服务号,订阅号和企业号,通过这三种账号达到消息推送,信息交流,信息互动的目的,且越来越多的企业和用户通过微信公众平台进行网络营销,网络信息化服务,网络宣传等,微信公众平台已经成为了继微博和QQ之后新型网络平台,平台通过提供私密接口的方式让微信用户与服务端进行信息交流与互动,这大大节省了服务端企业对其服务产品的再包装和再推广的费用,再加上公众号内简单易操作的界面使大量的用户对其青睐有加。所以对微信公众平台的关键信息爬取,能够及时获取有价值的信息,为企业和个人提供信息指导,对企业和个人的决策做到参考作用。因此对微信公众平台的信息爬取的研究有重要意义。

2采集的方案及难点

2.1微信没有公开的搜索接口

由于微信尚未有公开的搜索接口供第三方的搜索引擎爬取,而且微信也未提供官方权威的微信公众号的导航网站或推荐服务,因此指望完成对所有微信公众号的爬取并不现实,只能对指定微信公众号的内容进行爬取。

2.2常规思路及问题

已知对所有公众号直接爬取占时不现实,那么对微信公众号的指定内容爬取主要分为如下一些步骤:

第一步就是获得需要爬取的微信公众号列表

微信公众号列表可以参考那些微信导航站的做法,人工维护维护行业精品微信号列表。当然也可以直接爬取那些微信导航站,但质量很差。好在真正高质量值得爬取微信公众号也就至多上万个。

第二部就是要获取每一个微信公众号的内容入口页面。

随便留意一下某个微信公众号,会发现每个微信公众号的“查看历史消息”中有此公众号已发布的所有微信内容,剩下的问题是怎样获取这个地址。 一般程序员的思路是通过抓包、反编译等手段来获取此入口地址。好消息是要获取此微信公众号的入口地址并不复杂,你会欣喜发现此入口地址是一个普通的网页。

坏消息是:当你多测试一下,你会发现如下问题:

1)、此入口地址并不是固定不变的,一天左右就会变化的,主要是里面的key值。因此指望通过人工手工抓包一劳永逸地获取的地址并无太多实用价值 2)、此入口页面对未关注的用户只能看第一页,需要关注后才能看后续页面,要获取后续页面,只能关注此账号,但要人工关注上万个来自更多账号的关注并不现实

3)、微信对一个账号关注的公众号数是有上限限制的

应对此难题最一劳永逸的方案当然是反编译代码,获取微信的通信协议,但就研究结果来看,成本过高,破解的可能性也不大。

3国内研究现状

3.1提出的方案

微信公众平台的信息爬取

微信公众号的信息获取分析目录1微信公众平台背景........................................................................................................................22采集的方案及难点................
推荐度:
点击下载文档文档为doc格式
58rsj824eu1xkfw968ko77t6k14pg601b6r
领取福利

微信扫码领取福利

微信扫码分享