基于深度学习的网络舆情识别研究
随着互联网技术的快速发展,网络数据也在以惊人的速度增加,如何对网络舆情实施有效的监管成为迫在眉睫的任务。中文文本情感识别是网络舆情识别的核心内容,也是网络监管的重要内容。文本情感识别是自然语言处理领域的核心研究方向。传统的文本情感识别方法在处理大规模网络数据时表现出一系列的缺点(例如,识别效率低,准确率下降等)。近年来,深度学习的兴起为解决这一问题提供了一种可能的、有效的解决方法。论文针对中文文本情感识别和深度学习进行了较广泛的阅读理解和深入研究。论文提出了基于长短期记忆(Long Short-Term Memory,LSTM)网络模型的中文分词方案以及基于卷积神经网络(Convolutional Neural Network,CNN)的中文文本情感识别方案,并分别采用典型语料集对提出的方案进行了验证。此外,论文基于本文提出的中文文本情感识别方案设计并实现了中文文本情感识别系统,用于实际舆情分析。论文的主要工作及贡献概括如下:1.对中文文本情感识别涉及的文本预处理、文本表示、特征提取及分类等关键技术进行了阐述,分析了目前中文文本情感识别的典型方法及其不足,指出了文本情感识别涉及的关键技术都具有适合深度学习处理的特征。回顾了深度学习的研究现状,介绍了文本特征提取的典型模型,详细分析了论文使用的神经网络语言模型及相关程序。2.针对目前已有的分词算法和程序在处理海量网络文本分词时性能下降的问题,提出了一种基于深度神经网络模型的中文分词方案。该方案利用基于LSTM网络的编码-解码模型训练分词模型,在此基础上,
提出了一种基于词向量的修正方法,对采用上述模型的分词结果进行修正,以进一步提升分词性能。对典型微博语料数据集的实验结果表明,所提出中文分词方案的分词性能相对于传统的jieba分词软件的分词性能有了较大提升。3.针对传统基于机器学习的方法在分析大规模文本数据的情感时表现出准确率下降的问题,提出了一种基于深度学习中的卷积神经网络的中文文本情感识别方案。同时,为了改善CNN网络训练的收敛性,设计了一种CNN网络学习速率更新方法,并给出了其直观解释。通过对典型语料集的测试结果表明,论文提出的基于CNN网络的中文文本情感识别方案的准确率相对于传统的机器学习方法的准确率有了提高。4.提出了一种基于doc2vec程序的深度神经网络模型提取文本特征的方法,较好地挖掘了文本隐含意义。此外,为了克服提取的特征数值分布不均衡的问题,进一步设计了一种特征规整化方法。通过对典型语料集的测试结果表明,采用提出的文本特征提取方法在特征维数不高时可以获得满意的CNN网络分析性能。5.基于提出的中文文本情感识别方法,设计并实现了一个文本情感识别系统,用于舆情分析。详细描述了系统整体方案和各组成模块的设计方法。实现结果表明,设计的文本情感识别系统的功能可以基本满足实际情感识别的需求。