4.2. 数据集
Figure 4. Raw data format 图4. 原始数据格式
每张图像上带有对图像的描述,我们对这些图像进行了重写以避免太长和口语化表述,然后对图像进行截取以使得图像不再附有文本描述。经过处理后,我们获得了一个“图像–描述句子”映射关系的数据集。对于关键词信息的提取,我们将数据集中所有的描述句子合并成一个文档,然后使用Jieba [24]工具库中的关键词提取接口提取了该文档的关键词。关键词按照权重由高到低排列,然后我们遍历了每个描述句子中的词语以确定词语是否是关键词。通过处理,我们为图像确定了其描述的关键词,关键词是一个集合,由1~4个词语组成。
对数据进行处理后,我们构建了一个“图像–关键词–描述句子”映射关系的数据集。数据集的大小为2100条数据,我们随机选择2000条作为训练集,100条作为测试集。由于图像到描述的映射关系较弱,即使生成的描述质量很好,通顺流畅,如果和测试图像的参考描述差别很大,那模型性能很难在评估结果得到体现,因此本文在与测试图像最相似的20张图像的描述句子中随机选择5条作为测试图像的参考描述。这些信息写入了一个JSON文件中,其结构如下所示: { images: [
{\[keywords of image]}, ...... ],
annotations: [
{\“description \], ...... }
4.3. 图像编码器
在本文中,我们使用了在ImageNet [25]图像数据集上进行了预训练的VGG-16作为图像编码器。我
们选择了最后一个卷积层的输出作为图像的特征。其维度为14 × 14 × 512。512是特征图的通道数目, 14×14 是特征图的尺寸的大小,分别表示特征图的高度和宽度。
4.4. 关键词预测
cos=(θ)I1I2=I1I2∑k=1i1k?i2knn2ii2∑∑1k=k1=k12kn (10)
Figure. 5. Retrieval results of image #(183) and #(174)
图5. 图像#(183)和#(174)的检索结果
4.5. 文本编码器
对于词语的语义表示,一种有效的方式是将词语映射到高维度的词向量。所有这些词向量构成一个词向量空间,词向量之间的余弦距离可以反映词语之间的语义相似度。因此,连续词袋模型(Continuous Bag-of-Words, CBOW) [26]可以满足要求。通过在大规模的语料库中训练词向量模型,可以使得词向量模型包含丰富的语义信息从而可以充分表示文本信息。
我们利用Genism [27]工具库部署了一个词向量模型用做文本编码器。我们设置了窗口大小为5,词向量维度为512。然后在维基百科中文数据集上对词向量模型进行了训练。通过训练后,我们获得了一个词向量模型,该模型可以将词语表示为一个512维的向量。为了观察模型的性能,我们测试了与词语
Figure. 6. Word distribution similar to “seat” 图6. 与“座椅”语义相似的词语分布
Figure. 7. Word vector visualization 图7. 词向量可视化
4.6. 图像描述生成
训练完编码器后,再结合解码器进行训练。解码器的主要模型是LSTM,其目的是将编码器得到的上下文向量解码成自然语言句子。对于LSTM模型的训练,我们做出了如下处理。首先,将所有的描述句子进行分词处理,构建了一个包含2561个词语的词典,每个词都映射到一个整型的数字,表示该词在词典中的位置。在模型中,对于词语的表示,采用2561 × 512维的嵌入矩阵表示,每个词语由
一个512维的词向量表示,该嵌入矩阵使用均匀分布初始化器初始化,然后在模型训练的过程中不断优化。LSTM的隐藏单元的维度设置为512,隐藏层层数为1。初始学习率设置为0.001,采用Adam梯度下降优化算法对模型参数进行更新。我们在初始学习率为0.001时迭代了5000次,然后使用学习率0.0005迭代了4000次。我们在NIC和Soft Attention方法上做了对比实验。本文模型采用了10组关键词分别结合图像作为输入,然后使用BLEU、Rouge-L和CIDEr评价方法对模型进行评价。NIC方法是基础的编码–解码模型,Soft Attention方法是在NIC方法的基础上引入了软注意力机制。评估结果如表1所示。
Table 1. Evaluation of experiments on BLEU-n (n = 1, 2, 3, 4), ROUGE-L and CIDEr 表1. 模型在BLEU-n (n = 1, 2, 3, 4),ROUGE-L和CIDEr上的评估结果
模型 NIC Soft attention 本文模型
B@1 0.311 0.330 0.418
B@2 0.212 0.214 0.287
B@3 0.161 0.153 0.165
B@4 0.075 0.079 0.107
ROUGE-L 0.076 0.092 0.153
CIDEr 0.337 0.342 0.394
由表1结果可以看出,本文模型在各个评估指标上的评估结果比NIC、Soft Attention的性能好。通过引入关键词信息,可以加强图像到图像描述的映射。图8展示了同一张图像在不同关键词信息下的描述情况,结果显示不同的关键词对图像描述的侧重点产生了一定的作用。
Figure 8. Effect of different keyword information on image description 图8. 不同关键词信息对图像描述的影响
5. 总结
本文提出了一种将图像和关键词信息一起输入从而生成图像描述句子的新方法。根据实验结果,本文模型的性能比NIC和Soft Attention模型要好,能够生成流畅通顺的图像描述句子,并且同一张图像结合不同的关键词信息可以控制描述的侧重点,一定程度上增加了图像描述的多样性。虽然我们取得了一定的进展,但还存在一些问题,数据集不够大,生成的描述句子偏短。未来我们会扩充数据集,同时对模型进行优化以获取更好的性能从而满足实际的应用需求。
