微软亚洲研究院：计算机看懂视频的步骤及未来努力方向

对于人类来说，看懂视频似乎是再简单不过的事情了。从出生就开始拥有视觉，人眼所看到的世界就是连贯动态的影像。视野中每一个动态的形象都被我们轻易的识别和捕捉。但这对于计算机来说就没那么容易了。对于计算机来说，画面内容的识别，动作的捕捉，都要经过复杂的计算才能得出。当计算机从视频中识别出一些关键词后，由于语义和句子结构的复杂性，还要涉及词汇的词性、时态、单复数等表达，要让计算机将单个的词汇组成通顺准确的句子也是难上加难。

那么让计算机看懂视频都要经过哪几步呢？

首先，识别视频里的内容。目前的图像识别研究大多基于CNN（Convolution Neural Networks，卷积神经网络），首先，计算机识别出物体的种类，例如人、动物或其他物品；第二阶段，计算机获取物品在图像中的精确位置——这两个阶段分别回答了“是什么”和“在哪里”的问题。但在视频识别过程中，则需利用RNN（Recurrent Neural Networks，递归神经网络）将静态的图片加上时间的维度使其连贯，从而实现对视频内容中的静态物体和动作的识别。

递归神经网络

当计算机回答出“是什么”、“在哪里”和“做什么”的内容之后，就需要把这些分裂的词汇组成一个合乎人类表达规范的句子。而在将计算机识别出来的内容组成句子的环节中，相关性（relevance）和连续性（coherence）是两个关键点。相关性表示的是句子结构中的元素与视频内容的相关性，例如保证视频中所出现的客观物体的准确性。而连续性则是保证计算机最后“说”出来的句子要合乎语法，保证句子的连贯性。

相关性和连续性

计算机从理解视频，到表达出完整的句子，一直都是提高视频识别准确率的难点。但微软亚洲研究院研究员所提出的算法独具创新的将相关性和连续性进行联合学习以提高视频识别效果，将二维视觉上的卷积神经网络和三维的动态卷积神经网络结合，则使视频识别的准确性大大提高。

事实上，小冰即将开启的回复视频的功能在视频识别的基础上又更近了一步。她不仅要对用户提供的视频进行分析、理解，还要针对视频内容给出评论和反馈。这一功能将更加丰富小冰与用户对话的形式，并意味着用户在与小冰交流的时候将可以在文字、语音、图片、视频这几种形式之间无缝切换。

未来的三个努力方向

像每一个新生技术一样，视频识别还有很大的发展空间。微软亚洲研究院主管研究员梅涛博士表示：“我们为我们取得的成就而高兴，但是我们更多的是要想清楚如何走好下一步。未来，在视频识别领域有三个方向需要我们继续努力。”

第一，建立一个更大的视频数据集，从而实现视频识别方向的可扩展性和泛化能力。视频识别相比于图像识别和语音识别等技术起步较晚，实验数据相对有限。因此建立大规模的视频数据集将成为视频识别研究进一步发展的基础，将为研究机构和研究人员提供更多有效的研究素材。这一数据集目前正在筹备中，预计明年初能够对学术界开发使用。

第二，扩展可识别视频的时长和内容的多样性，以及完善计算机从视频到句子的表达能力。目前，视频识别在视频的时长和内容上仍有一定限制；计算机表达的描述语句和人类自然语言仍有一定差距。未来的研究目标将着重于让计算机能够识别多种形式、时长更长的视频内容，并能产生复合的句子描述，使计算机的语言表达更自然流畅。

第三，视频中的声音识别。区别于图片，视频除了动态效果之外，还有一个很重要的维度，就是声音的加入。目前的视频识别还仅限于内容图像上的识别，尚未把声音加入识别范围内。接下来，视频识别与语音识别的共同合作将会进一步提高计算机视频的分析能力和表达能力。