谷歌YouTube算法团队：视频质量评价的集成池化方法

随着移动互联网的发展，视频成为信息消费越来越重要的形式（这从国内外的YouTube、抖音的发展可见一斑），而其中用户贡献内容（UGC）往往占很大比例。

因为每个用户制作水平不同，UGC内容的视频质量是良莠不齐的，视频网站运营商不仅要对视频内容进行审核，对视频的画面质量审核也非常重要。

所以自动化的视频质量评价应运而生。

今天arXiv新出论文《A Comparative Evaluation of Temporal Pooling Methods for Blind Video Quality Assessment》，

来自德克萨斯大学奥斯汀分校和谷歌YouTube算法团队的研究者对这一问题进行了分析，提出了一种集成池化方法，并建立了有效的评估，实验结果证明了方法的有效性。

视频质量评价方法（VQA）

VQA可分为有参考视频的质量评价（常用于对视频进行压缩或处理之后的前后比较）和无参考的质量评价。

很显然，对UGC内容的质量评价是无参考的，说白了这个问题就是对一段视频计算得出一个数值，反应视频的画面质量。

一种很直接的思路是，对每一帧画面进行图像质量评价，得到每一帧的质量分数，然后将这些质量分数综合起来，这个综合的过程，被称为时序池化（Temporal Pooling）。

考虑视频和人眼视觉感知的特点，业界已经出现了很多时序池化方法，包括：

算数平均：

直观、简单，用的也很广泛。

谐波平均：

有效抑制低质量视频帧影响。

几何平均：

可有效反应视频质量分数的中心趋势。

当然还有更复杂的、反应更多视频特点的时序池化方法不再细述，请查看原论文。

谷歌的工程师觉得：运用单个方法往往只能带来一个好处，如果把这些方法集成起来，对最终的视频质量评价肯定更有效（看起来很美好～）。

集成的方法很简单：

选择一种图像帧质量评价方法后，使用多个时序池化方法得到质量分数，然后使用线性回归，把它们结合起来。

实验结果

论文使用了多种图像质量评价方法，在两个大规模数据集KoNViD-1k 、LIVE-VQC上进行了实验，结果如下：

实验中作者选择了三种时序池化方法的结果进行集成，表格中EPooling即为集成池化方法的结果。

可见大多数情况下，EPooling都是最好的或者次好的。

作者指出，该文的集成池化方法只是提出了一个思路，在实际工程中，选用哪种图像质量评价方法、使用哪几种时序池化方法、选择什么回归方法都可以进一步探索。

论文地址：

https://arxiv.org/abs/2002.10651