好文档 - 专业文书写作范文服务资料分享网站

机器学习-文本分析

天下 分享 时间: 加入收藏 我要投稿 点赞

议程互信息议程卡方统计量议程?

词嵌入?

词嵌入是将词转化为向量表示,即使用低维、稠密、实值的词向量来表示每个词, 从而使计算词语相关度成为可能。两个词具有语义相关或相似,则它们所对应的词向量之间距离相近。度量向量之间的距离可以使用经典的欧拉距离和余弦相似度等

在向量空间中,每一个词用1和0组成的向量表示(如

[0,0,0,0,...,0,1,0,...,0,0,0]),有多少个词语就有多少维向量,这就是独热(one-hot)表示方法。如果要表示句子,则用句中的多个词构成一个向量矩阵。很明显,某种语言的词汇数量越多,词向量就越大,而句子的向量矩阵就会越大。但是,one-hot表示方法存在“词汇鸿沟” 问题,即词与词之间没有同义、词序、搭配等关联信息,仅从词的向量中看不出两个词之间关系。为了解决这一问题,就需要对词向量进行训练,建立词向量之间的关系。训练方法是通过大量的现有语料句子传入神经网络模型中,用模型的参数来表示各个词向量之间的关系

议程??

词嵌入?

??

训练词向量的典型工具有Word2Vec和GloVe等

Word2Vec认为经常在一个句子中出现的 词语相似度是比较高的,即对于一个中心词, 最大化周边单词的概率。Word2Vec采用三层网络进行训练,最后一层采用霍夫曼树(Huffman) 来预测

GloVe是通过共现计数来实现的:首先,构建一个词汇的共现矩阵,每一行是一个词, 每列是句子。 通过共现矩阵计算每个词在每个句子中出现的频率。由于句子是多种词汇的组合,其维度非常大,需要降维,即对共现矩阵进行降维

Word2Vec和Glove比较容易且快速地融合新的句子加入词汇表进行模型训练Glove在并行化处理上更有优势,处理速度较快

议程?

词嵌入gensim是一款开源的Python工具包,用于从文本中无监督地学习文本隐层的向量表示,并提供了相似度计算、信息检索等API接口。以下是gensim官网上训练和使用Word2Vec模型的demo代码

from gensim.models import Word2Vec

from gensim.models.word2vec import LineSentencesentences = LineSentence('sentence_list.txt')model = Word2Vec(sentences, size=128, window=5, min_count=5, workers=4)

items = model.most_similar('学习')for item in items:

print item[0], item[1] model.similarity('英语', '数学')

机器学习-文本分析

议程互信息议程卡方统计量议程?词嵌入?词嵌入是将词转化为向量表示,即使用低维、稠密、实值的词向量来表示每个词,从而使计算词语相关度成为可能。两个词具有语义相关或相似,则它们所对应的词向量之间距离相近。度量向量之间的距离可以使用经典的欧拉距离和余弦相似度等在向量空间中,每一个词用1和0组成的向量表示(如[0,0,0,0,...,0,1,
推荐度:
点击下载文档文档为doc格式
02c0h99e4v6b8ve00zsa83uyx967u500v8o
领取福利

微信扫码领取福利

微信扫码分享