好文档 - 专业文书写作范文服务资料分享网站

文档嵌入维度同胚 - 政府工作报告实例分析 - 图文

天下 分享 时间: 加入收藏 我要投稿 点赞

Computer Science and Application 计算机科学与应用, 2020, 10(6), 1194-1208 Published Online June 2020 in Hans. http://www.hanspub.org/journal/csa https://doi.org/10.12677/csa.2020.106124

Document Embedding Dimension Homeomorphism

—Government Work Report Analysis

Hualun Xie1, Xun Liang1, Mengdie Li2

12

ththth

Received: May 27, 2020; accepted: Jun. 5, 2020; published: Jun. 12, 2020

School of Information, Renmin University of China, Beijing Government Service Center of Kaifu District, Changsha Hunan

Abstract

The intelligent analysis of big data in government work reports can quickly and fully grasp the cor-relation of various internal factors and support decision maker to complete reasonable judgment. Taking the 18-year government work report as research target, which consists of 31 provinces and municipalities at the county level and above after 2000, this paper first proposes the optimal em-bedding dimension analysis framework based on document embedding homeomorphic space. And then on this basis, the paper studies the separability and similarity of provincial documents of the best document embedded dimension homeomorphism model of government work report. Finally, the experimental results and analysis of the document clustering separability and similarity differ-ence in the government work report are given. The optimal document embedding vector obtained by the model can effectively divide the provincial subspace of the government work report, and the differences in the similarity of the provincial time series of the local government work report high-light their gaps in politics, economy, education, culture and so on. The experiment also found that the Euclidean distance using the regularized government document vector is equivalent to the tradi-tional cosine distance. The document embedding analysis framework not only has certain reference significance and application value for the construction of smart government affairs in China, but also can support deep information mining, report reinterpretation and intelligent decision making in multi-category documents such as public company announcements.

Keywords

Government Work Report, Document Embedding, Homeomorphism, Dimension

文档嵌入维度同胚

——政府工作报告实例分析

谢华伦1,梁 循1,李梦蝶2

文章引用: 谢华伦, 梁循, 李梦蝶. 文档嵌入维度同胚[J]. 计算机科学与应用, 2020, 10(6): 1194-1208. DOI: 10.12677/csa.2020.106124

谢华伦 等

12

中国人民大学信息学院,北京

湖南省长沙市开福区政务服务中心,湖南 长沙

收稿日期:2020年5月27日;录用日期:2020年6月5日;发布日期:2020年6月12日

摘 要

对政府工作报告大数据的智能分析,可以快速且充分地掌握其内在各因素的关联,支持决策者完成合理的决断。本文以2000年后共18年的全国31个省和直辖市县区级及以上的政府工作报告为分析对象,首先提出了基于文档嵌入同胚空间的最佳嵌入维度分析框架,在此基础上对政府工作报告的最佳文档嵌入维度同胚模型进行了省域文档可分性和省域文档相似性研究,最后给出了政府工作报告的文档聚类可分性和相似性差异的实验结果和分析。该模型得到的最佳文档嵌入向量能够有效地对政府工作报告的文档省域子空间进行划分,各地方政府工作报告的文档省域时间序列相似性差异凸显了它们在政治、经济、教育、文化等多方面的差距,实验同时发现在求解相似文档集上使用正则化后的政府文档向量的欧式距离能够等效于传统的余弦距离。本文提出的文档嵌入同胚分析框架不仅对我国智慧政务的建设具有一定的参考意义和应用价值,同时可以在上市公司公告等文档多分类任务中对深度信息挖掘、报告再解读和智能决策提供支持。

关键词

政府工作报告,文档嵌入,同胚,维度

Copyright ? 2020 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). http://creativecommons.org/licenses/by/4.0/

Open Access 1. 引言

中央集权制为我国当前的政治现状,这一现状决定了我国大陆地区31个省、直辖市、自治区的最高一级行政单位在各自管辖的行政区划内具有高度的政策权威,其辖区内的州、市、盟、县、旗、区在政府工作上与省部级的政策指令高度看齐,这为地方政府工作报告按省域一级文档可分奠定了现实基础,计算机算法的进步为分析我国县(区)级及以上的政府工作报告文档大数据奠定了技术基础。

对政府工作报告的已有研究中虽部分使用了自然语言处理及文本分析方法,但在其做后续分析时仍存在数据来源较小且仅限于中央政府工作报告、研究不深入、方法较单一以及内容分析上的单方面性和主观性等一些不足之处。结果反映的往往是一组政府报告在全部表达内容下,或全部政府工作报告在某些方面的相关性[1]。然而在政府公文中,很少有像政府工作报告这样一篇文档表达多重内容的综合性论述报告,使用基于人工智能的大数据智能分析来研究它们在时间尺度上的传承性、空间维度上的相似性和内在各因素的关联性,对于全面解读各地方政府的工作报告具有重要意义。

在拓扑学中,同胚(homeomorphism)是两个拓扑空间之间的双连续函数,拓扑空间范畴中的同构[2]。也就是说,它们是保持给定空间的所有拓扑性质的映射。如果两个空间之间存在同胚,这两个空间就称为同胚的,从拓扑学的观点来看,两个空间是相同的。本文中的同胚,是指同一文本使用相同的训练模型或经过相同的处理过程,得到的具有不同训练参数但具有相同特征数的文本的计算机表示形式。

DOI: 10.12677/csa.2020.106124

1195

计算机科学与应用

谢华伦 等

本文首先获取除港澳台以外、2000年以后的31个省、州、盟、市、旗、区和县级政府工作报告,在Gensim平台上使用Doc2Vec方法进行文档向量的分布记忆模型(distributed memory model of paragraph vectors, PV-DM)训练报告文档大数据,通过无监督的方式得到文档的深度学习(Deep Learning, DL)向量空间表示,进而使不同维度的政府工作报告具有相同的文档嵌入向量空间同胚表示,找到最优的政府工作报告文档嵌入维度,然后使用基于分类和回归树(classification and regression tree, CART)的XGBoost算法进行有监督的省域政府工作报告向量空间的划分,接着对最佳嵌入维度空间的政府工作报告进行相似性分析,最后通过流形学习(manifold learning, ML)中的T分布随机近邻嵌入(T-distributed stochastic neighbor embedding, T-SNE)非线性降维算法,将高维的政府文档向量降到二维,得到政府工作报告的文档可视化结果。

针对政府工作报告,本文首先通过文档嵌入维度同胚分析模型,结合无监督的深度学习将其向量化,然后使用有监督的机器学习对同一地方政府工作报告的时间序列传承性进行分析,接着得到不同地方政府工作报告之间的同地相似性、同市相似性和异省相似性,进而去分析产生该相似性差异的可能原因,如地方政府政治地位、政府官员的来源、实体经济产业联系、高等教育资源分配差异、语言文化用词风格差异等。这种先使用无监督的深度学习再使用有监督的机器学习的方式,既能够有效规避不同嵌入维度的政府文档嵌入矩阵不同、文档向量优劣性不好比较的问题,得到的政府文档最佳嵌入维度,又可以有效防止文档向量化过程中因嵌入维度过小而引起的信息丢失和因嵌入维度过大包含大类噪声。基于人工智能模型,本文对政府工作报告文本大数据进行了分析,其内在各因素的关联分析结果具有较好的经济和政策借鉴意义。同时该文档嵌入维度同胚分析框架可以应用在其他政府公文、行业分析报告、上市公司公告等文档多分类问题中,对文档的深度信息挖掘、分类再解读和智能决策提供基于人工作智能的自然语言处理支持。

2. 政府文档嵌入维度分析

自然语言处理中,需要将词和句子表示成计算机能够处理的形式。传统的one-hot独热表示仅仅将词符号化,不包含任何语义信息。Harris在1954年提出的“分布假说”为这一设想提供了理论基础:上下文相似的词,其语义也相似。Firth在1957年对分布式假说进行了进一步阐述和明确:词的语义由其上下文决定[3]。分布式表示的较大优点在于它具有非常强大的表征能力,比如n维向量每维k个值,可以表征kn个概念。

Bengio提出一个自然语言处理的大规模深度学习模型,这个模型能够通过学习单词的分布化表示来获得上下文信息[4]。基于神经网络的分布式表示一般称为词向量、词嵌入(word embedding)或分布式表示(distributed representation),核心依然是上下文的表示以及上下文与目标词之间的关系的建模(见图1)。相比于词的独热表示,一是将词向量的每一个元素由整型改为浮点型,变为整个实数范围的表示,二是将原来稀疏的巨大维度压缩嵌入到一个更小维度的空间。

词嵌入是深度学习模型应用到自然语言处理中不可或缺的一环:神经网络的输入是连续空间中的向量,而自然语言运用的则是离散的字符,词嵌入将自然语言转换成空间中的向量,是连接两者不可或缺的桥梁。维度(dimensionality)是词嵌入模型里最重要的一个超参数。斯坦福大学的研究者Yin和Shen提出了一个理解词嵌入维度的理论框架[5]。

Milokov等人提出了Word2Vec词嵌入算法,Google将其于2013年开源,采用了CBOW (continuous bag-of-words model)和skip-gram (continuous skip-gram model)两种模型与负采样和层次损失函数两种方法[6]。随后的2014年,Le和Mikolov提出了文本向量的深度学习算法Doc2Vec文档嵌入(document embedding),借鉴Word2Vec思想的两种结构:PV-DM和PV-DBOW,分别对应Word2Vec中的CBOW和skip-gram [7]。Doc2Vec在神经网络的输入层增加了一个唯一的文档(段落)ID,在计算句子向量的同时算法也计算出词向量(见图2)。在图2中,政府文档用矩阵D中一行唯一表示,词用one-hot词汇表W中一行唯一表示。

DOI: 10.12677/csa.2020.106124

1196

计算机科学与应用

谢华伦 等

Figure 1. Word vectors are hidden layer parameters when training neural networks 图1. 词向量是训练神经网络时的隐藏层参数

Figure 2. Two structures of Doc2Vec 图2. Doc2Vec两种结构

2.1. 文档嵌入的几何性质与几何不变性

几何模型中的文档向量的几何性质与文档的表达内容存在着对应关系[8]: ? ? ?

相似性。文档的相似性可以通过向量夹角的余弦值来表示。对于两个文档向量Vi和Vj,它们夹角的余弦值cos(Vi,Vj)的范围在?1到1之间。这个值越大,代表第i个和第j个文档之间的相似度越高; 类比性。类比性考察的是两篇文档之间作者是否相同。文档类比这一语义性质对应的几何性质为两对文档向量的差的平行度;

聚类性。相似文档向量之间的距离总是较小,因而这些文档会倾向于聚成一类。

文档嵌入向量的夹角关系、平行关系和距离关系具有酉不变性,文档嵌入向量空间的旋转、等量伸缩、镜像等整体变换并不影响这种几何关系。酉变换并不改变向量之间的相对位置。评价文档的相似、作者等语义学任务时,由于文档嵌入向量空间的几何性质具有酉不变性,因此将文档向量矩阵全部单位

DOI: 10.12677/csa.2020.106124

1197

计算机科学与应用

谢华伦 等

化后向量夹角关系不变。

2.2. 政府文档嵌入的损失函数

定义1 (文档嵌入同胚DVM):为使不同嵌入维度的相同文档集具有相同的同胚表示,给定文档嵌入向量集E∈Rn×d,定义其文档嵌入同胚为:

DVM(E)=EET

其中n为文档数,d为嵌入维度,ET为E的转置矩阵。文档嵌入同胚EET的第i行是一个n维向量

((v,v),(v,v),?,(v,v)),该向量可以看成是vi的相对坐标,其参照物是v1至vn。

i1i2in定义2 (文档嵌入损失DVML):给定相同文档集、不同维度的文档嵌入E1和E2,定义其文档嵌入损失为:

T=DVML(E1,E2)=DVM(E1)?DVM(E2)=E1E1T?E2E2∑((i,jvi(),v(j)?vi(),v(j112)(2)))2

文档嵌入损失通过测量E1和E2中同一文档向量的相对坐标漂移,从而消除对于特定文档嵌入坐标系的依赖。注意到文档嵌入损失DVML的酉不变性,如U为一个n阶酉矩阵,In为n阶单位阵,满足

TTTUU=U=UIn,E2是E1的一个酉变换,满足E2=E1U,则E1E1T?E2E20。 =3. 政府文档嵌入流形学习分析

在现实中高纬度的文档向量数据点可能并不分布在欧式空间,使得非线性高纬度文档嵌入数据难以在传统欧式空间中度量,因此引入新的数据分布流形空间用于文档嵌入数据的空间分布。流形(manifold)的局部具有欧几里得性质,是欧式空间中几何概念的推广,文档嵌入的向量空间通常具有在高纬度空间中实数“充盈”,传统的欧几里得度量方式不再适用于文档嵌入的向量空间,但完全摒弃欧几里得的数学度量方式、创造性地开创一种新的空间度量方式并未在数学上取得突破性进展,因此,在对高纬度、实数域的文档嵌入向量空间进行分析时,引入局部具有欧几里得性质的流形的数学概念,变得实际且可行。

3.1. 高维空间政府文档嵌入

高维度的政府工作报告文档嵌入向量空间中,任意两个文档向量之间的距离差异较小,欧式距离失效,基于欧式距离、建立最近邻算法图来近似流形的方法在高维空间失效[9]。由于数据内部特征的限制,一些高维中的数据会产生维度上的冗余,实际上只需要比较低的维度就能唯一地表示[10]。

政府工作报告文档嵌入本质上是文本在高纬度空间的实数域上的向量表示,其作为典型的几何模型,其具有流形学习所需要的数据特征,因此,将政府工作报告文档嵌入向量之间的夹角余弦值定义为它们在高维实数空间中的距离,即可对政府工作报告文档嵌入进行文档相似性评价,为政府工作报告省域文档相似性奠定了数学基础,并且这种文档向量流形空间所具有的局部欧几里得性质也为使用T-SNE进行流形学习降维从而实现可视化提供了依据。

3.2. 政府文档向量距离

定义3 (文档余弦距离DCOS):为使在高维空间中表征不同文档嵌入向量之间的距离,定义其文档余弦距离为:

∑(AiBi)

DCOS(A,B)=i=1AB

DOI: 10.12677/csa.2020.106124

1198

计算机科学与应用

n

文档嵌入维度同胚 - 政府工作报告实例分析 - 图文

ComputerScienceandApplication计算机科学与应用,2020,10(6),1194-1208PublishedOnlineJune2020inHans.http://www.hanspub.org/journal/csahttps://doi.org/10.12677/csa.2020.106124D
推荐度:
点击下载文档文档为doc格式
10g1a4zqmi3y3j84vsq02xzhu2kzn0009po
领取福利

微信扫码领取福利

微信扫码分享