龙源期刊网 http://www.qikan.com.cn
基于机器学习的文本情感多分类的学习与研究
作者:刘呈
来源:《电脑知识与技术》2020年第20期
龙源期刊网 http://www.qikan.com.cn
摘要:文本分类与情感分类是自然语言处理中基础的领域,为帮助初学者对文本情感多分类的项目学习,在机器学习的基础上,分析了线性逻辑回归算法、朴素贝叶斯模型在文本情感分类项目中的应用,并针对数据处理、模型构建、模型训练、模型测试过程中初学者难以解决和易出错的部分进行分析与实现。结合kaggle上的比赛数据实例,实现了完整的文本情感多分类项目并做出详细分析,项目评测结果较为可观,证实可以帮助初学者更易上手文本情感多分类和机器学习。同时提出了基于传统二分类问题的多分类问题解决方法。 关键词:机器学习;文本分类;情感分类;自然语言处理;多分类 中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2020)20-0181-02
Study and Research on Text Emotion Multi-Classification Based on Machine Learning LIU Cheng
(Central China Normal University, Wuhan 430079,China)
Abstract: Text categorization and emotion classification are basic fieldsin natural language processing. To help beginners leam theitems of text sentiment multi-classification. based on machine learning, the linear logistic regression algorithm and Bayesian modelare analyzed in the text sentiment classification project. In the process of data processing、model building、model training and mod-el testing, it is difficult for beginners to solve and error-prone parts are analyzed and implemented. Combined with the game dataexamples on Kaggle, a complete text emotion multi-classification project has been implemented and detailed analysis has beenmade. The results are
considerable, which proves that it can help beginners get started with text emotion classification and machineleaming. At the same time, a multi-classification problem solving method based on the traditional two-classification problem isproposed.
Key words : machine leaming ; text categorization; emotion classification: NLP; Multi-classification
龙源期刊网 http://www.qikan.com.cn
随着人工智能的飞速发展,作为最核心与最具挑战性领域之一的自然语言处理在最近几年逐渐进入研究高潮,进入这个领域的初学者也越来越多。在NLP(Natural Language Process-ing.)领域,所需知识比较繁杂,掌握难度较大,缺乏对于初学者入门级学习的研究,导致初学者大多难以适应。
本文基于NLP中基础性的文本情感分类项目,区别于传统的二分类问题,将情感类型细化为五类,更贴合生活实际,做出挑战。同时结合kaggle上的比赛数据实例,基于机器学习中的线性逻辑回归算法和朴素贝叶斯模型算法,完成了整个情感多分类项目流程并做出研究。针对初学者在数据处理、特征选择、模型网络构建、模型训练与测试过程中难以解决和易出错的部分做出了详细分析与说明,以帮助初学者进行NLP领域的项目学習。 1文本情感分类概述
文本情感分类是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程,是NLP领域重要的基础领域,涉及文本分词、词语情感分析、机器学习、深度学习等。文本情感分类通过在现有的大量数据中,基于学习算法寻找并学习词语情感的规律,构建相应的分类函数或分类模型(分类器,Classi-fie),这样对于给定的其他文本将能做到文本情感分类[1]。 计算机并不能直接识别与处理所提供的自然语言数据,通常要对这些文本数据进行维度上的抽象处理[1]。基于机器学习算法的文本情感分类通常需要构建学习模型,针对已处理的数据进行重复的训练与测试,通过测试的反馈修正模型参数,使得分类模型具备更高的准确度。文本数据经过模型导出后将被划分到对应情感类别,实现文本情感分类。 2文本情感多分类项目设计与实现
文本情感多分类项目整体流程大致分为数据处理、特征选取、模型的构建、训练与测试,其中对于模型的处理,本文基于机器学习主要给出两种模型算法:线性逻辑回归模型和朴素贝叶斯模型。图1是项目结构框架图。 项目过程的功能与实现如下: 2.1数据处理
文本数据来源于Kaggle网站竞赛数据,数据包括四列,Phraseld(短语编号)、Sentenceld(句子编号)、Phrase(短语)和Sentiment(短语情感分类)。针对数据做出几点说明,一个句子可以划分成若干个短语,所以存在多个短语来源于同一个句子,其句子编号相同;情感分类是对每一个短语进行分类,情感类型划分为五类,用数字0-4标明,代表非常消极、消极、中性、积极、非常积极。