2019年秋季统计决策与贝叶斯分析课程报告及测
试
姓名: 学号: 专业:
一、开放式论述题(60分):请结合你的研究领域,结合具体算例和数据,就贝叶斯分析在其中的应用,试选择一个典型案例进行阐述。
(一)态势感知需求分析
网络安全态势感知注重数据综合分析,并向主动和深度方向发展,对未知网络攻击行为预警能力将大大增强;漏洞自动挖掘和脆弱性评估技术持续发展。其中关键问题在于基于大数据的综合分析。而运用贝叶斯统计原理,进行贝叶斯推断,不失为对于大数据的综合分析的一种手段。
舆情监控作为网络安全态势感知的一个重要方向,主要是监测互联网上的国内、国际重大事件,网友通过BBS论坛、博客、新闻跟帖、微博等网络媒体发表的网络舆情言论,通过分析信息特征和发展趋势,形成可供决策使用的数据结果的过程。舆情监控的主要对象是互联网web信息。监控对象具有数据庞大,类别繁多,而且具有非结构化等的自然语言特征。在数据量庞大的情况下,依靠人工对舆情信息进行分析、分类是不可能的,只能通过计算机处理。但由于自然语言的丰富性,包括多层次的歧义(词汇、句法、词义、语用等),目前计算机也很难完美解决问题,这给舆情监控带来困难。舆情分析预测系统设计难点是如何正确而全面的获取互联网上相关的舆情信息报道。为确保信息的查准率和查全率,对舆情信息挖掘涉及到语义搜索技术、文本挖掘技术、计算机语言学、信息学、心理学、新闻学等相关领域知识。
今年,香港问题日益严重,如此之多的暴徒是怎样一夜之间出现在大街小巷的呢?为何乱港势力可以令这些年轻人如此崇拜和服从?其实,这一切都是香港舆论环节的全面失控和教育的失管失控所导致的。而对香港人的政治倾向问题可以通过舆情分析预测系统进行推断。
(二)舆情分析预测系统数学原理描述
舆情分析预测系统主要包括分析系统与预测系统,分别采用贝叶斯分类方法与贝叶斯公式。
分析系统主要通过网络信息挖掘,对网络大数据运用贝叶斯分析,进行信息分类。从内容上看,可以把网络舆情信息看成一个二值分类问题: 有用信息还是无用信息;有用信息分为:正面信息还是负面信息。因此,对舆情信息的挖掘最终回归到对信息的分类问题上。由于贝叶斯方法在分类问题上表现出了很好的性能,为此,尝试对舆情监控分析也类似采用贝叶斯分类方法。
舆情分析系统的基本工作方式是先从海量信息中获取本领域需要的各身份人员的舆情信息,再从获取的舆情信息中区分出是负面信息还是普通信息。这里经过了两次分类过程。第一次分类是将海量信息分为有用信息(学生类)、有用信息(公务员类)、有用信息(中产阶级)、有用信息(资本家)和无用信息;第二次分类是将有用信息分为负面信息和正面信息。舆情系统分析处理必须经过这两个步骤:
第一步:通过分类函数??1进行第一步判定,判定该项信息是否为本领域需要的舆情信息??1:??→{??1,??2,??3,??4,??},其中M为网络信息,V表示有用信息(1-4表示身份信息),I表示无用信息。
判定方法:将需要处理的文档采用向量空间模型(Vector Space Model)实现信息向量化,获取文档的词频信息表T(Table)。根据词频信息表T对比分类过滤器??1,判定该项信息是否为有用的舆情信息并标记人员类别。
第二步:通过分类函数??2进行第二步判定,负面信息还是一般信息??2:??→{??,??},N表示负面信息, G一般信息。
判定方法:在第一步中已将该文档实现信息向量化,定义文档为n维向量
{??1,??2,?????}信息,其中????(??=1,2???)表示第i个特征项的权重,特征项为预定的领域
正、负面标志特征,通过特征项权重标注网页的“感情色彩”特征信息。
分类函数f的获取方式:贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类,我们的目标就是获取分类函数??,即贝叶斯分类器。根据贝叶斯分类器的分类原理,结合国内学者的研究和舆情分析系统的实际情况,设计如下模型获取分类函数??:
信息样本直接从大型门户网站的历年新闻报道中选取,对样本进行训练学习,获取样本的词频信息表和特征权重信息,生成分类器??1,即具有类似词频信息表的文档即可判定为有用信息V。对样本信息进行正负面判定,此处的正面信息即非负面信息,意即普通信息。分别抽取正、负面的信息样本的词频信息表和特征权重信息,生成正、负信息分类器??2。正、负信息判定即通过该分类器??2判定。
预测系统针对舆情分类数据,进行统计计算,再根据贝叶斯公式,后验修正预测某类人群的倾向,为决策者提供数据支持。
预测系统采用采用贝叶斯公式:后验概率=先验概率*调整因子
??(?) × ??(?? | ?)
??(? | ??) =
??(??)先验概率:h的发生概率,也就是我们最常见的某一事件的发生概率。
后验概率:在D事件发生的前提下,h的发生概率。后验概率是一种条件概率,也就是 在D事件发生前提下h事件的发生概率。
调整因子,也叫相似率:??(?? | ?) / ??(??) 强调的是利用新信息更新现有的一个概率,有点类似于“不断累积证据从而不断趋近目标概率”的过程。
(三)基于简单贝叶斯算法的实例实现
从香港大型门户网站的历年新闻报道中选取某一领域内容的学习样本集设为M,对M进行信息向量化处理,生成词频表W,具体信息包括网页样本文件总字数total、特征词语????、出现频率数;通过对????进行递归统计,生成样本的候选特征词表F,包括??(??)、词语????的信息增益值,和????的条件概率??(????|??),按照频率和增益值从大到小排列。
1)选取一定量的某一领域内容的用于训练学习的信息样本M;
2)通过对文本进行信息向量化,建立文本的词频关系表,引入领域专家经验,对词频关系表进行一定的加权修改;
3)运用简单贝叶斯方法分析学习样本M的词频关系表; 4)生成词频表W,按照词频从大到小排列;
5)生成候选特征词表F,使用{??1,??2,?????}表示特征词表,使用{??1,??2,?????}表示特征此表对应的词语的信息增益值,按照信息增益值从大到小排列;
6)将词频表W,候选特征词表F,更新保存进分类器??1;
7)获取已标志为“负面”、“正面”的信息的词频表及其信息增益值????,建立信息的“感情色彩”特征库,生成分类器??2;
8)直接从网上随机抓扒一定量网页信息作为新的训练学习样本????,用分类器关对新的
学习样本????进行贝叶斯分类,分类为????、????; 9)用分类器??2对????进行贝叶斯分类,将????分为????、????; 10)经过以上步骤处理,最终将显示“负面”、“正面”、“无用”这三类分类结果。查看分类结果,并提供反馈信息,可及时纠正机器学习效果;
11)反馈信息为出现错误时,判断错误情况,如为无用信息,重复步骤3-10,如为“感情色彩”误判信息,重复步骤7-10,机器对训练学习样本????进行二次分析,重点学习分类错误的信息,调整更新词频表????和候选特征词表????,进一步完善和更新分类器。
通过以上分类,假设可得到以下数据:
香港大型门户网站香港各所学校及各地方组织里面浏览网络信息的人员成份为:30%的学生,20%的公务人员,30%的中产阶级,20%的资本家。学生是100%浏览负面信息,公务人员是30%浏览负面信息70%浏览正面信息,中产阶级则一半浏览负面信息一半浏览正面信息,资本家是60%浏览负面信息40%浏览正面信息。有了这些信息之后我们可以容易地计算“随机选取一个人员,他(她)浏览负面信息的概率和浏览正面信息的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在香港大街小巷中,迎面走来一个浏览负面信息的人员(你只看得见他(她)浏览的是否是负面信息,而无法确定他(她)的职业),你能够推断出他(她)是学生的概率是多大吗?
我们来算一算:假设香港人的总数是700万。
30% 的学生都浏览负面信息,于是我们得到了浏览负面信息的学生数量:
700万× ??(??????????????)×??(????????????????|??????????????)=210万
(其中 P(Student) 是学生的概率 = 30%,这里可以简单的理解为学生的比例;P(Negative|Student) 是条件概率,即在 Student 这个条件下浏览负面信息的概率是多大,这里是 100% ,因为所有学生都浏览负面信息)
20% 的公务人员里面浏览负面信息的人数:
700万×P(Servant)×P(Negative|Servant)=42万
30% 的中产阶级里面浏览负面信息的人数:
700万× P(Middle)× P(Negative|Middle)=105万
20% 的资本家里面浏览负面信息的人数:
700万 × ??(??????????????)× ??(????????????????|??????????????) =84万
加起来一共是 441万个浏览负面信息的,其中有210万个学生。两者一比就是你要求的答案。
下面我们把这个答案形式化一下:
??(??????????????) ? ??(???????????????? | ??????????????)
??(??????????????|????????????????)=
??(????????????????)所以这个例子的答案是:
浏览负面信息的人是学生的概率:
P(Student|Negative)=0.3 * 1/(0.3*1+0.2*0.3+0.3*0.5+0.2*0.6)=0.3/0.63=47.6% 根据结果,进行贝叶斯推断,此次维稳重点在学生,上街游行人员主要为学生,可以针对学生制定维稳策略。也可以细化分类,确定出是哪一所大学是重中之重,特别是香港中文大学、香港理工大学等乱港分子集中之地。
统计决策与贝叶斯分析课程报告及测试(111)



