【清华AI公开课】俞益洲：计算机视觉应用将达到8000亿规模

【新智元导读】4月18日，清华大学《人工智能前沿与产业趋势》系列讲座第四讲，深睿医疗首席科学家、美国计算机协会杰出科学家、IEEE Fellow俞益洲为大家介绍了目前计算机视觉的应用和落地，特别是在医疗影像方面的发展状况、遭遇的挑战、以及克服挑战的思路。最后和清华大学自动化系副教授、博导鲁继文以及知名天使投资人、梅花创投创始合伙人吴世春一起对计算机视觉的落地机会进行了畅想。

首先由清华大学海峡研究院大数据AI中心专家委员、百度七剑客之一、酷我音乐创始人雷鸣老师做开场，对计算机视觉方面的技术和应用场景做了一个整体的解读。

雷鸣讲到在技术方面，目前计算机视觉可以大致分为图像处理、人脸识别、图像预测以及生成技术。单个照片的处理技术现在已日臻成熟，接下来正在大力发展3D影像和视频流处理技术。在应用领域，人脸识别被广泛的应用于多种场景例如酒店、安防、医学影像、金融、工业以及农业中。

接下来由深睿医疗首席科学家、美国计算机协会杰出科学家、IEEE Fellow俞益洲为大家带来《计算机视觉的应用与落地》。最后由雷鸣、俞益洲和清华大学自动化系副教授、博导鲁继文以及知名天使投资人、梅花创投创始合伙人吴世春对计算机视觉方面的创业机会进行了讨论。

什么是计算机视觉？和图像处理的区别在哪里？

图像处理的输入是图像，输出仍然是图像。而计算机视觉则是在更高层面能够对输入的图像进行分析和理解，最终输出的不一定是图像，可能是数值或符号，这些数值或符号构成输入图像的描述。计算机视觉的主要任务包括图像识别、运动分析、场景重建和图像恢复等。

首先，图像识别完成对图像内容的描述，如果和其他模态的信息汇总，就能够得到对图像的整体理解，进而起到辅助决策的作用；其次，目前很多图像都是以视频的形式或动态图像的形式呈现，对这类图像的运动进行分析可以得到更多的信息；场景重建是对输入的二维图像通过分析之后还原成真实世界里的三维物体；最后，虽然图像恢复严格意义上不是视觉，但现在大家普遍将图像处理作为视觉的一个分支来考虑，叫做底层计算机视觉。

基于深度学习的计算机视觉

俞益洲说，在计算机视觉里面用到的深度学习，主要就是卷积神经网络（CNN）。CNN是Yann LeCun发明的一种具有特殊连接关系的神经网络。神经网络有很多种，包括单层和多层网络。卷积神经网络特别的地方在于其卷积操作与信号处理里面的卷积操作相似，特别适合于对图像进行理解。

Yann LeCun最初把CNN应用于手写体邮编的自动识别。在这个任务上CNN在80年代末90年代初就已经达到了98%以上的准确率。当时能够处理的图片还很小，直到2012年，另外一个机器学习先驱Hinton把原来的卷积神经网络推广到更大尺寸的输入图像上。

同时训练图像的数量也大幅上升，从原来的几万张图像上升至2012年的100万张ImageNet训练图像。感谢GPU，原来耗时很长的模型训练也变得可以接受。但即使用GPU训练模型，当时100万张训练图像也需要跑大约两周。

在那以后大家继续改进神经网络的架构，到2015年在ImageNet上top-5的错误率下降到了3.57%，已经低于人在图像识别方面的错误率。卷积神经网络能达到这样的性能是因为它逐层对图像都有更深刻的理解。

计算机视觉的应用

俞益洲说，第一个应用场景是智能安防，它包括了大部分人脸识别的应用场景，如机场、车站、出入境，也包括智慧交通，如车辆管理、车牌识别、智能红绿灯等，通过这些技术可以追踪车辆什么时候上的高速，什么时候下的高速。智能安防也包括视频监控，对人的行为和行踪进行跟踪等等。

人脸识别包含两个子问题，首先是一对一的身份验证，对比本人和身份证上的照片是不是同一个人，现在准确率远远超过了99%；其次是一对多识别，比如门禁，如何识别出某个人是否是小区业主，现在准确率还有提升空间，在十几万人中的识别准确率还比较令人满意，但是如果接近100万人的话，准确率就会明显下降。

视频监控在跨摄像头人物跟踪方面解决得还不够好。比如一个人从摄像头A视野中消失后，进入了装在另一个地点的摄像头B，因为可能拍不到人脸而且两个摄像头捕捉到的图像可能在视角，光线和成像质量等方面存在多种差异，在识别的时候就会出现问题。所以这种跨摄像头的人物跟踪和识别仍是一个热门的研究课题。

安防系统从功能上可以分为视频监控、出入口控制、楼宇门禁、防盗报警等，从应用场景上分为平安城市、智能交通、智能楼宇+智能家居，以及其他应用如金融、文教等。

俞益洲提到，安防市场规模巨大。全球安防市场到2020年有望达到3000多亿美元规模，中国市场到明年有望达到1万亿人民币，占全球安防市场将近50%。

计算机视觉的第二个应用场景是自动驾驶，包括道路检测、车辆检测、行人检测、路标指示牌识别、道路两侧的物体如建筑物识别等。因为道路上有各种指示信息（比如指示牌、限速标志、道路分叉等等），所以不仅要把这些指示牌检测出来，同时也需要识别指示牌上的信息。

自动驾驶是一项综合技术，不光涉及到计算机视觉，还需要用到激光雷达及其他传感器，牵涉到运动规划和车辆的运动控制等。根据麦肯锡调研，十年后自动驾驶会超过现在的安防市场规模。

第三个应用场景是增强现实，跟内容的合成有关系。现在手机端有很多这方面的增强现实技术，比如手机打开就可以化妆，或者在人脸上加一些实时的卡通元素。

俞益洲还提到以前做的一个项目：首先给校园里的建筑建模，然后将图像里面的信息映射到三维模型上，就可以把虚拟的摄像头移到任何你想去的地方。

从粗糙的三维模型合成非常逼真的照片，在当时是一个实时的技术，后来被别人用到了电影特效中。黑客帝国电影里最著名的躲子弹镜头，就是起源于这项技术。俞益洲提到，到2020年左右增强现实有望达到一千多亿人民币的市场规模。

第四个应用场景是无人零售，从亚马逊无人店开始，国内很多企业也推出了自己的无人店、无人超市。无人零售需要很多计算机视觉技术，需要用到行人检测、定位跟踪、人脸识别、手势识别等，相当于一个封闭环境内的监控系统。这是一个新兴且处于上升阶段的市场。据2018年新消费崛起趋势白皮书，无人零售市场规模将来有望超过万亿。

第五个应用场景是智慧医疗，包括手术机器人、医学影像的辅助诊断、机器人问诊、临床支持决策系统等。通过把基于人工智能的智慧医疗技术推广到地方医院可以帮助这些医院提高诊疗水平，吸引更多的病人。

如果只考虑医疗影像，市场潜力仍然是巨大的。比如在中国最近几年医疗影像市场规模就在4000亿人民币，每年还在继续增加，近期有望达到6000到8000亿人民币，但是整个医疗的支出占GDP比重只有6%，还是远低于美国的水平（17%），所以还有很多上升空间。

我国医疗行业的现状有很多改善的空间。三甲医院数量最少但病人却最多，地方医院的病人则较少，这是一个不合理的分布。如果能够引进人工智能技术，将医学影像的辅助诊断、机器人问诊推广到地方医院和专科医院，就有可能把大部分病人吸引到这些医院去治疗，可以使病人在各级医院的分布更加合理，促进有效地利用各级医疗机构的资源。三甲医院则不必忙碌地治疗各种常见病，而是把主要精力集中在疑难病症上。

计算机视觉与医学影像分析

俞益洲说，深度学习和计算机视觉中的图像识别技术如果用于医学影像分析，可以对医学影像进行辅助诊断。现代医学越来越依赖于医学影像信息，去医院看病，经常被要求去拍各种医学影像，如CT、核磁等，医生则根据影像报告做最后的诊断，没有医学影像报告，他们一般不轻易下结论。

所以现在看来，80%的临床问题需要影像检查来得到最终的诊断结果。所以影像检查就成为一个瓶颈，放射科医生的工作负担非常重，他们每天需要阅读大量影像，读完之后还要写报告。

近年来随着深度学习的快速发展，图像识别和自然语言处理取得了很多突破性进展。另一方面，在医学影像中寻找病灶甚至判别它们的良恶性从本质上来说就是图像识别。所以很自然地就会想到把深度学习和图像识别技术应用于医学影像分析，这种结合推动医学影像走向智能化。

图像识别里面有几个基本任务，第一个是图像分类，给一幅输入图像，决定图像里面的物体属于哪一类；接下来可能会关心定位，图像里面的物体位置，可以用物体的包围框表达出来。但这些问题主要针对只有单个物体的图像而言，面对多个物体，需要解决几个任务，第一个是物体检测，第二个是语义分割。

不论输入图像中有多少个物体，物体检测需要把每个物体的位置都用包围框的形式表达出来，然后对每个包围框决定一个物体类别。与图像分类相似，但是要在包围框级别给出一个类别的信息。

语义分割则要求知道每个像素属于哪个类别，也就是说，每个像素被哪个类别的物体覆盖。这样每个像素都有一个类别标签，是一种密集的图像识别。

把物体检测和语义分割结合起来，就得到最后一个任务叫做实例分割。实例分割要把具有同一个类别标签的多个物体分割开来，同时把每个物体的轮廓找出来。

图像识别在医疗影像上已经有很多成功案例，比如皮肤癌分类（Nature 2017）和糖尿病眼病检测（JAMA 2016）属于图像分类任务，肺结节检出和乳腺肿块检测属于物体检测任务，肝分割和脑白质分割可以归为语义分割任务。所以很多医学影像分析任务都可以归结为这些图像识别的基本任务。

基于AI的医学影像分析实例

俞益洲还介绍了深睿医疗在医学影像分析方面的探索和成果。深睿医疗的主要业务是为各级医疗机构提供基于人工智能和互联网的医疗解决方案，在人工智能和深度学习方面积累了很多核心技术。

作为医学影像分析实例，他介绍了深睿医疗在基于CT的肺结节良恶性判别、基于CT/MRI的脑卒中辅助诊断、胸部X光片的病灶检测、儿童骨龄的辅助评估、基于钼靶的乳腺癌诊断等方面的成果。

肺结节检测是肺癌筛查的第一步，之后还需要判断检出的肺结节是良性还是恶性。深睿医疗在这方面有比较多的积累，其中一种方法根据肺结节形态方面的属性来训练良恶性判别模型，这主要从医生通常采用的以形态属性为依据的诊断过程得到启发。

我们可以训练网络，对许多种不同的属性进行识别，然后把识别出来的属性做为中间表达，再输入到后面的分类网络，最后得到一个良恶性的判别。这种方法在公开数据集LIDC上可以达到97.58%的准确性。此外，多种判别良恶性的方法可以整合起来做最终判别。

去年8月份，深睿医疗把AI的结果和江苏省放射协会的126名不同职称级别的医生进行对比。医生分为高级、中级和初级职称三个组，其中高级职称组的平均AUC为0.779，平均准确性为73.8%。而AI模型的AUC达到0.873，准确性为85.0%。此后对AI模型进行持续改进，目前它的AUC已经达到0.927，准确性达到86.0%。

第二个实例是脑出血的辅助诊断。诊断脑出血是一件争分夺秒的事情，辅助诊断的主要任务是把大脑里的出血区域找出来，然后决定出血量。解决这个问题需要用到刚才提到的语义分割技术。基于深度学习的语义分割算法对出血区域进行分割，测量它的体积，估计出血量，各项性能指标已经达到了很高的准确性。

第三个实例是基于X光的胸部病灶检测。因为X光片是三维的信息投影到二维空间上得到的结果，投影把很多三维信息叠加在一起，叠加之后用肉眼就比较难区分不同的病灶区域，至少对没有训练过的人来说很难看出来。但是用深度学习就能检测出这些病灶，只要图像上面存在细微的差异，深度学习模型就有可能识别出来。

此外，也可以为儿童骨龄的辅助评估和乳腺钼靶辅助诊断建立深度学习模型。俞益洲称，深睿医疗针对这两个问题研发的深度学习算法目前在行业内处于领先水平。以乳腺钼靶钙化检出为例，在不同误报个数下的阳性召回率都明显高于其它解决方案。

俞益洲还分享了医学影像分析领域一些特有的挑战。比如说在医学影像方面训练样本少，因为医学数据收集比较困难；数据标注成本高，因为需要经验丰富的医学专家进行标注，而且也只是相对来说比较准，无法做到100%准确。不同医生去标注同一幅图像，结果也可能会有比较明显的差异，一致性相对比较差。

俞益洲也介绍了一些解决方案，比如针对数据标签的一致性，希望设计算法能够在训练模型的同时，对数据标签进行修正。针对数据标注成本高的问题，可以适当降低数据标注量，用半监督或者混合监督的形式训练模型。深睿医疗在胸部X光片诊断方面已经做了一些研究，设计了一种混合监督学习算法，能够比较准确地检测病灶区域。

计算机视觉团队角色如何配置？

吴世春回答了雷鸣提出的“在投资中如何对团队进行考量”的问题，他认为团队里一定要有计算机视觉的大牛以及行业专家，需要考虑团队成员之间的互补性，对于行业的理解占第一位，然后第二位有这种视觉的专家，但不一定是活跃在学术圈的大牛，只要能够把好的东西应用过来就够了。其次是工程人才和销售人才，这4类人才是必不可缺的。

计算机视觉落地机会在哪里？

最后，几位专家对计算机视觉技术落地进行了畅想。

俞益洲提到人机交互以后会有较大的发展空间。多模态信息融合与理解的能力，可以应用在服务行业、教育和动作类游戏。

吴世春提到，首先可以应用在选矿，区分有色金属以及废矿有没有开采价值；其次，可以应用在垃圾分类，可以极大地变废为宝。

鲁继文提到，AI在手机领域会有很大的发展空间，可以想象新生代的年轻人每人都有一个便携式自动化小机器人；针对特定行业的自动化例如农业无人机。

雷鸣提到，娱乐和内容方面AI也会有很大的发展机会，特别在动画影视方面。