深层神经网络模型在图像字幕方面取得了很好的效果,但它们在很大程度上依赖于具有成对图像和句子字幕的语料库来描述上下文中的对象[1][11]。一些遵循CNNRNN框架,另一些采用了一种多模态框架[14],递归语言特征和图像特征嵌入到多模态空间中。然后使用多模态嵌入逐字预测标题。基于比较训练图像和测试图像在深层图像特征空间中的knearest邻域的检索方法[15],在字幕任务上也取得了好的效果。然而,检索方法仅限于出现在成对图像句子数据的训练集中的单词和描述。为解决现有的字幕模型缺乏形成新的物体与已知概念的组合结构的能力[12],而没有显式图像对的例子的限制针对未出现在成对图像-句子标题(paired image and sentence captions)数据集中的新目标来处理生成成对图像句子数据集中不存在的新对象,我们提出了对深度组合字幕的研究。
深度组合字幕(Deep Compositional Captioner, DCC)通过利用大型对象识别数据集和外部文本语料库,并通过在语义相似的概念之间传递知识,构造了关于看不见物体的新句子。
DCC有两个核心的设计:
1. 独立的词汇检测器、语言模型,这两部分分别在不成对图像、不成对文本数据上进行预训练,再结合起来组成字幕模型,字幕模型在成对图像-句子上训练;
2. 多模层,作用是将成对图像-句子中学过的已知对象的信息转换到新对象上。利用外部文本语料库将新对象与成对数据中看到的概念关联起来,并提出了两种将知识从已知对象转移到新对象的机制。通过对排除特定对象的MSCOCO数据集训练分割结果的实证研究,证明了DCC生成新对象标题的能力。从定性来讲,证明DCC可以用来描述Imagenet 7k数据集中的各种对象,而这些对象不存在于标题数据集中。主要分为三个步骤:(a) 利用不成对数据训练一个深度词汇分类器与深度语言模型;(b) 将词汇分类器和语言模型组合成一个标题模型,并在成对的图像-句子数据上训练标题模型;(c) 最终,将出现在成对的图像-句子数据中词的知识转移到未出现在成对的图像-句子数据中词上去。下图为DCC三个步骤的流程示意图:
为了实现DCC方法,我们需开展以下工作:
1) 深度词汇分析器(图左)。词汇分类器是将图像映射到语义概念的CNN。为了训练词汇分类器,首先通过提取每个单词的词性[2]挖掘出在成对图像文本数据中常见的概念,然后选择最常见的形容词、动词和名词。词汇分类器是通过微调对ILSVRC-2012[3]数据集的训练分割进行预先训练的CNN来训练的。在描述图像时,来自图像的多个视觉概念会影响描述。为了在每个图像上应用多个标签,我们使用了一个sigmoid交叉熵损失。我们将词汇分类器输出的图像特征表示为FI,其中FI的每个索引对应于图像中存在特定概念的概率[4]。
2) 语言模型(图右)。仅使用未配对文本数据来学习句子结构,并且包括一个嵌入层,该嵌入层将一个one-hot-vector词表示映射到低维空间、LSTM[5][13]和一个词预测层。语言模型被训练来预测句子中给定的前一个单词。在每个时间步骤,在每个时间步,前一个单词被输入到嵌入层中。嵌入的单词被输入到有固有递归结构学习语言的LSTM中。嵌入字和LSTM输出连接起来形成语言特征fL。fL输入到内部产品层以生成的序列输出下一个字。
3) 标题模型。融合了词汇分类器和语言模型,学习了一种用于图像描述的联合模型(图中心)。标题模型中的多模态单元结合了图像特征fi和语言特征fl。我们使用的多模式单元是图像和语言特征的仿射变换pw = softmax(fIWI fLWL b) 其中WI、WL和b是学习权矩阵,PW是预测词的概率分布。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。