活动 | 机器感知、三维点云如何与深度学习擦出火花？

机器人需要在这个过程中学会如何主动感知和控制，深度学习的流行也为探索这一问题提供了一种值得借鉴和学习的方法。

AI 科技评论按：ICRA 2018 正于近期在澳大利亚布里斯班举行。ICRA 全称为「IEEE International Conference on Robotics and Automation」（机器人与自动化会议），是机器人技术领域最有影响力的国际学术会议之一。 AI 科技评论在去年曾赴新加坡参加 ICRA 2017，并带回融合产业与学术的专题丰富报道。详情可了解去年的 ICRA 2017 大会专题内容：https://www.leiphone.com/special/289/201705/592e37165105d.html

根据学术会议惯例，Workshops & Tutorials 将在大会正会前后召开。作为能够给予与会者宏观启迪及学术纵览体验的一项重要议程，持续一整天的 Workshops & Tutorials 自然早早吸引了不少学者前来注册参会。

今年 ICRA 2018 共有 1 个全天 Tutorials 及 22 个全天 Workshops；此外还有 3 个半天 Tutorials 及 9 个全天 Workshops。 AI 科技评论从议程进行不完全统计，机器感知与控制仍然是 ICRA 2018 的关注重点。所有的 Workshops & Tutorials 中有近一半是围绕两个议程的讨论，而基于现实问题的应用探讨（包括道德伦理）也有 5 个相关议题。此外，仿生机器人、人机交互、自主系统构建等话题也是比较热门的关注方向。

AI 科技评论选取了其中几个研讨内容做简单分享，更详细的研讨内容可参考大会官网中关于 Workshops & Tutorials 的介绍：http://icra2018.org/accepted-workshops-tutorials/

由谷歌大脑两位女研究员 Anelia Angelova 和 Jana Kosecka 组织的 Tutorial「Deep Learning for Robotics Perception」从当前非常流行的一些深度学习网络入手，分享和探讨了机器如何借助机器学习更好感知周围的世界，并根据实际任务做出更加精准的反应。

值得一提的是，现场还配备了手语翻译人员，可以说是非常人性化了。

目前机器人需要处理多种感应模式，包括「是什么？在哪里？怎么样？」等问题，这就涉及到非常多的问题，比如三维重建，视觉测距、对象分类、人类/物体的姿态估计、语义分割、匹配，识别和本地化等。也就是说，机器人需要在这个过程中学会如何主动感知和控制。因此，深度学习的流行也为探索这一问题提供了一种值得借鉴和学习的方法。

最开始，机器人研究者采用神经网络的初衷是为了进行分类特征提取，但目前随着深度学习的广泛应用，数据驱动模式能够构建强大的端到端训练方法，如今已经可以拓展到更多的感知模式和视频检测上，并进一步构建神经网络架构工程在无监督或自我监督的训练方式中。

在 Tutorial 里，Angelova 先介绍了从视觉领域角度上，机器人在感知领域是如何做探索的。从视觉角度来看，分类与检测是目前机器人学最主要的两个相关问题。

从分类入手，以 AlexNet、Inception、ResNet、DenseNet 等为代表的深度神经网络，在机器人领域又可分为物体分类及场景识别两种任务；
从检测入手，R-CNN、Fast R-CNN、Faster R-CNN 为代表的深度神经网络走的是「Two-stage approaches」，即 Bounding box + classification 的方法；而以 YOLO、SSD、Retinanet 为代表的网络，采用的是「Single-stage approaches」，即 Direct「regression」to locations and classification 的方法。

基于深度神经网络的准确性及可行性，我们需要肯定深度神经网络对于机器人在感知上的探索。目前已知的一些网络体系架构也在快速发展，通过引入架构，标准的计算机视觉算法能够比较顺畅地应用于机器人技术上。

随后，基于姿态估计和匹配、场景分割和密集预测、抓取及从视频中学习等四个方面，两位科学家展示了一些具体的研究成果及应用场景。

在三维点云及即时检测、多任务检测上，深度学习对机器人的研究也有着不少先进成果。Binh-Son Hua1、Duc Thanh Nguyen、Lap-Fai Yu、Sai-Kit Yeung1 及 Daniela Rus 组织了一个名为「Creating Annotated Scene Meshes for Training and Testing Robot Systems」的 Workshop，针对 3D 场景重建和标注的相关进展进行了介绍和探讨。与较为容易获取且数据量庞大的 2D 图像数据集相比，从现实世界中捕获，重建和注释 3D 场景并非一件容易的事情。

受限于点云本身的无序性，不同设备在不同位置扫描物体所获得的数据不尽相同，数据难以通过端到端方法来处理；点云本身也面临数据缺失的问题，比如被扫描模型往往会被遮挡。

针对无序点云数据的深度学习方法研究，目前进展还相对缓慢。在 CVPR 2017 上，斯坦福大学提出的 PointNet 是第一种直接处理无序点云数据的深度神经网络。团队通过在每个点训练一个 MLP，把每个点投到一个 1024 维空间上，并采用了 Max Pooling 层做为主要的对称函数，比较好地解决了顺序问题。随后斯坦福大学在 NIPS 2017 上的 Pointnet++，对 PointNet 做出了更多改进。

在本次 Workshop 中，学者们还探讨了数据捕获，实时和离线重建，自动和交互式注释，质量控制和基准测量指标等目前的热点问题。

组织者之一的 Daniela Rus 是 MIT 的 CSAIL 主任，在 2016 年的 CCF-GAIR 大会上，Daniela Rus 教授曾经作为大会嘉宾受邀做主题演讲。她曾表示，虽然深度学习已经取得了非常显著的成果，但研究者还面临深度学习的三个挑战。首先是深度学习需要大量的训练数据；其次是深度学习并非永远不会犯错；再者是它的可解释性。

不论是机器感知，或是以三维点云为代表的技术，在利用深度学习探索的过程中，必然还是会遇到同样的问题。而在深度学习与机器人学的结合中，人与机器人的相互协作与共同进步，也将成为每一年 ICRA 孜孜不倦的目标。「人类和机器人各有擅长的事情，我相信未来会是一个人与机器共同协作，互补对方短板的社会，我们也需要努力去创造这种社会。」