基于卷积神经网络的图像的智能处理的研究方法，研究意义，研究内容

更新时间2019-01-12 14:15:17

随着互联网技术的快速发展和电子设备数字影像技术的提高，人们更喜欢用智能手机拍摄和截屏，更方便、更快速地采集和记录信息。快速浏览一张图像足以让人们指出并描述关于视觉场景的大量细节。然而，如果只能通过识别出数字信息的计算机技术获取图像内容，其算法过程之复杂是难以想象的。目前大多数的视觉识别工作都集中在使用固定模型对图像进行标注上，虽然实现了对整幅图像内容的自动标注，但与人类可表达的丰富描述相比仍有很大的局限性。这些模型通常使用特定的模板对图片和句子进行学习，这对图片的丰富描述产生了限制。此外，有研究将复杂的视觉场景减缩为单个句子，这也是没必要的约束。

　　核心思想是：给模型输入一些图像及其相应的句子描述，将这些图片及句子数据集视为弱标签进行学习，学习连续的词段及在图片中对应的位置。通过大量的学习，模型可生成句子段并推断出其描述对应的图像区域，如图1所示。

　　研究的目的是对给定的输入图片自动生成语言描述。提出一个多模嵌入模型，它能检索图片中的内容及所处位置，然后生成文本段对应到图片中所描述的区域，最后用文本段生成完整的句子描述。该模型涉及两种深度神经网络，分别是卷积神经网络（Convolutional Neural Networks，CNN）和循环神经网络（Recurrent Neural Network，RNN）。

利用改进的卷积神经网络学习图像从底层到高层的多示例融合视觉特征，对图像进行区域标注；基于双向循环神经网络学习人工描述序列中的语法和语义，然后对区域的文本段生成自然语言描述。　　

　　图像的多标签自动标注已有大量研究，如Gould和Socher等[1-2]研究了在固定类别集上对图片中的物体、场景和区域进行正确的语义标注。基于卷积神经网络能对图像进行多尺度的特征提取，在处理图像数据集时有很好的分类效果。针对一般模型在训练和测试时速度慢的特征，应用更快区域卷积神经网络（Faster-Region Convolutional Neural Network，Faster-RCNN），在训练时占空相对较小，并且能提高检测运算的精度和速度。该方法标注内容更丰富，对区域的描述也更准确。

　　对于图像的句子描述，Kiros等[3]提出了逻辑双线性模型生成对图像的完整句子描述，但是这种模型使用的是固定的上下文窗口。Donahue等[4]使用RNN模型，它与传统的神经网络的不同之处在于其带有记忆功能，能够处理对前面输出内容有关联的输出问题。一般采用BRNN，它不仅与前面的内容有关，还与后面的内容有关，可以很好地根据上下文预测生成的句子描述。此外，有许多不同的研究方法用来把词段和图片联系起来，例如Karpathy等把图片和句子分解成片段并推断它们之间的对应关系，一般方法和它有类似之处，但是没有固定长度的上下文窗口。

上一篇：为什么说一个好的老师就是一门好的隐性课程

下一篇：青海省的三支一扶、青南计划、大学生村官等报名有毕业年限吗