基于大数据的网络舆情分析系统
谌志华
【摘 要】针对互联网数据快速增长和舆情信息飞速传播的问题,提出一种基于大数据的网络舆情分析系统。该系统包括数据采集、预处理、分析和报告汇总四个模块,实现舆情信息的全网自动搜索与采集,大规模舆情数据的格式化存储以及舆情信息的分析、统计汇总等功能。该系统还使用Hadoop平台进行数据处理,并使用HDFS分布式文件系统存储舆情数据,使用MapReduce技术完成舆情分析和报告。仿真结果表明,该系统有助于及时、准确地分析网络舆情,能较好地满足网络舆情分析的需求。 【期刊名称】现代电子技术 【年(卷),期】2017(040)024 【总页数】3
【关键词】大数据;网络舆情;舆情分析;Hadoop;HDFS;MapReduce
0 引言
目前,我国互联网普及率[1]已超过全球平均水平4.6个百分点,达到54.3%。网民规模占全球网民总数的1/5,达到7.51亿,并有超过70%的网民使用微博、博客等参与话题讨论并发表观点。互联网已逐渐成为热门话题和事件讨论的重要平台以及舆情事件的放大器[2?3]。
网络舆情[4]是指网络媒体或网民使用互联网对热门话题和事件进行讨论,所产生的具有一定倾向性与影响力的言论或意见,通常具有开放性、迅速性、丰富性、互动性和落地性等特点。虽然正面积极的舆情信息具有示范效应并能带来良好的社会影响力,然而消极负面的舆情信息将严重威胁社会的稳定和安全。
因此,如何利用并控制网络舆情已成为相关管理部门与政府机关所关注的核心问题。
传统的舆情分析系统由舆情搜索和舆情分析两部分组成,并使用B/S模式将舆情分析系统分为功能层、数据访问层和业务逻辑层三层架构。其中,功能层用于响应用户的请求、展现请求结果和转发控制;数据访问层实现数据库的封装访问;业务逻辑层用于分离业务和逻辑。然而,当前互联网数据急剧增长,且具有价值巨大但密度低的特点,如何全面抓取信息,并及时、准确地分析网络舆情已成为当前网络舆情分析亟需解决的问题[5]。
本文针对互联网数据急剧增长和舆情信息传播速度快的问题,提出一种基于大数据的网络舆情分析系统,将大数据及数据挖掘技术应用到网络舆情分析中。该系统包括舆情信息采集、预处理、分析和报告四个模块,实现了全网自动搜索、采集舆情信息、大规模舆情数据的格式化存储以及舆情信息的分析、统计汇总等功能。
1 网络舆情分析系统架构
本文将大数据和数据挖掘技术应用到网络舆情分析中,实现了基于大数据的网络舆情分析系统。该系统使用Hadoop平台进行数据处理,使用HDFS文件系统存储舆情数据,并使用MapReduce技术完成舆情分析。系统整体包括数据采集、预处理、分析和报告汇总四个模块,系统整体架构如图1所示。
2 系统实现
2.1 数据采集模块
舆情数据采集模块是本文舆情分析系统的基础模块,主要负责使用网络爬虫从新闻、论坛、贴吧、微信和微博等Web页面采集舆情信息,具体流程如图2
所示。
基于大数据的舆情分析系统不仅需要使用传统搜索引擎爬虫保证所下载网页的全面性,且还需要使用聚焦爬虫保证所采集信息的精确性。通过设置黑白名单,保留有用的URL链接,并依据确定的搜索策略重复搜索,直至达到停止条件。在抓取Web信息时,主要采集网页的文章内容和版块列表两种信息。其中,文章内容采集即通过分析网页的HTML源码抓取和保存网页内容,版块列表采集即通过确定初始网页的URL、设定爬行深度、制定爬行参数和采集规则等操作抓取初始网页源文件[6]。 2.2 预处理模块
舆情信息预处理模块是本文舆情分析系统的数据准备阶段,该模块先将采集到的各种网页信息进行去重、去噪等预处理。然后,选择文本特征并格式化为文本向量,最终得到文本向量集。其工作流程如图3所示。
由于新闻、论坛和微博等的网页结构各不相同,因此需要清洗与文本无关的HTML源码,并保留网页标题、内容摘要、发布时间以及评论等与舆情相关的信息。过滤掉无意义或重复的网页信息后,为了避免噪声干扰并保证数据的完整性需要剔除或填补缺失数据。
为了便于后续的文本分析,本系统使用MapReduce技术和分词工具并行处理格式化文本,提取词频特征,构造文本向量集。同时,将其保存到HDFS分布式文件系统中。 2.3 舆情分析模块
舆情分析模块是本文舆情分析系统的核心模块,主要完成识别、跟踪舆情话题和评估舆情情感,其具体工作流程如图4所示。