追寻大师的脚步 | 张正友忆华人计算机视觉宗师 Thomas S. Huang

编者按：美东时间2020 年 4 月 25 日夜间，计算机视觉之父，华人视觉一代宗师 Thomas S.Huang（黄煦涛）去世，享年 84 岁。

黄煦涛先生一生成果颇丰，且终其一生严谨为学、宽厚为师、谦逊为人，培养和影响了无数后辈学者。

著名学者，ACM/IEEE Fellow，腾讯AI Lab和腾讯Robotics X实验室主任张正友博士，也正是其中一位。虽不为黄门弟子，其学术生涯却仍受到极大影响，由此也可见一斑。

下面我们转发一篇张正友博士于 2016 年庆祝Thomas S. Huang 八十大寿的发言稿，以示纪念。

追寻大师的脚步

第一次认识Thomas S. Huang和他太太Margaret是1988年，他们来我所在的法国INRIA实验室访问。Tom在计算机视觉和信号处理领域已经是上帝一样的存在，而我刚开始读博士还不到一年，但Tom平易近人，睿智儒雅，三十多年来一直是我生命中高山仰止的丰碑。现重发2016年庆祝Tom八十大寿的发言稿，回顾了Tom对我学术生涯的影响，以此纪念。

感恩Tom家人的大爱，昨天在Tom去世前给我们机会和Tom视频话别。Tom，你追随Margaret而去，你们肯定会在天国相会，携手永伴。Tom，一路走好！R.I.P. ???

2016年10月1日，伊利诺大学Beckman Institute和电机与计算机工程系联合举办Dr. Thomas S. Huang黄煦涛教授八十寿辰学术研讨会，我很荣幸列席。我和Tom自1988年相识并开始学术交集，他作为计算机视觉界和信号处理界的先驱智者，以他独有的洞见和卓越的学术成就，给了我不计其数的启发，鼓励和支持。Tom学术家族树已经数代，根深叶茂，毕业的博士生迄今已有一百多位，其中不乏我的实习生，而他们的学生也有不少还是我的实习生，真可谓薪火相传，不知其尽也。

研讨会当天，我被安排做一个简短的发言，目光所触，看见Tom和济济一堂他带出的学生，想起Tom尽管誉满天下，参加任何会议仍及其认真严肃，从不放松专业水准，想起Tom和他太太Margaret多年来对我的支持，不禁触动了感情，有点哽咽。

28年前我是法国国家计算机自动化研究院（INRIA）的一名博士生，和Tom缘起他的一次访法学术交流，彼时Tom已是国际上计算机视觉界和信号处理界的泰斗。那个时候觉得他赫赫有名却非常平易近人,对他能把枯燥的学术报告讲解的幽默风趣的本领十分敬佩。从那以后,我不时向Tom请教和咨询学术问题，得他指点迷津和无私提携。Tom是非常乐意助人的。

Tom对我个人学术生涯影响至深，可以溯源到我的博士论文: 那时我为了机器人导航在做三眼立体视觉的运动估计。Tom在从事从二维到二维特征对应估计运动和从运动中决定三维结构（Structure from Motion）的研究工作，现在在机器人领域叫SLAM（Simultaneous Localization And Mapping），Tom可谓是SLAM的先驱。特别值得指出的是，Tom和他的学生R. Y. Tsai在1981年发表的文章“Estimating3-D Motion Parameters of a Rigid Planar Patch”是Structure from Motion领域的开山之作。当时我有个想法，就是把Tom做的东西实现一下来解决我的问题。为此我开始读Tom的一篇论文，题目是“Some Properties of the E Matrix in Two-View Motion Estimation”。这是Tom在1989年发表于IEEE Transactions on Pattern Recognition and Machine Intelligence上的一篇经典的很有影响力的文章。

我很快发现我理解不了Tom的文章 :-)，太多的公式让我脑袋爆炸了。我因而将我的博士论文转向解决一个更简单的问题：从三维到三维特征对应来估计运动。三维特征可以用我们的三眼立体视觉系统里提取出来，我的博士论文的问题可以描述如下：

这是一个带六个约束条件的线性方程。但我也清楚，这个问题太简单，不足于写成一篇博士论文。我于是试图从多方面探讨研究这个领域，包括：数据不定性；参数估计鲁棒性；运动分割；短序列匹配；长序列跟踪；等等。写成了320页的长篇博士论文。

我博士论文答辩还有一个小插曲：答辩委员会里一个很有名的教授指责我说不诚实，所有人都大吃一惊，包括我的博士导师。追问原因，他拿着我厚厚的论文说：“你没有指明哪些部分是你的工作。”原来他不相信论文里的工作都是我自己完成的。我认为这是对我博士论文的褒奖。

恰在此时，我注意到Tom正在编辑“Springer Series in Information Sciences”从书。我冒昧去信问Tom：我的博士论文值不值得作为一本专著在他编辑的丛书上发表？结果就是我的博士论文被修编成了我的第一本书《3D Dynamic Scene Analysis》。

直到多年以后我终于读懂了Tom 的文章，把那些公式理清楚了。根据这些基本原理，我推而广之，将之应用到未标定的摄像机，将算法鲁棒化，开发了图像自动匹配技术，发明了摄像机标定新算法，也据此发表了我的第二部专著《Epipolar Geometry in Stereo, Motion, and Object Recognition: A Unified Approach》。

感谢从Tom那里得到的灵感，我因此发表了一系列相关论文，其中包括发表在1999年ICCV上关于摄像机标定法的文章。2005年，我庆幸当选 IEEE Fellow。在北京举行的 ICCV 2005 晚宴上，Tom 亲手颁证书给我，真的没有比他更加合适的颁奖人啦！

在经历了个人学术研究的一个小“巅峰”之后，我开始寻找下一步的研究方向。Tom是我长久以来的学术导航灯，很自然的我开始集中阅读Tom实验室发表的论文。我发现了他已经在人脸建模、人脸表情识别和视频会议三方面发表了许多前瞻性的文章，立刻决定开始进行这三方面的研究。

人脸建模。

Tom在3D人脸建模方面早在90年代初就有很多先驱的研究，比如用样条曲面来表达3D人脸，来进行人脸非刚性运动的估计，和Facial action units的提取，以及voice-driven avatar的研究。

我从1999年开始做用Web Cam视频对人脸三维建模，通过基于几何和外观模型拟合的方法进行多方位的研究，使得即使在低分别率和弱光照下也能鲁棒建模。多次的实时演示中，我和我的团队成功给很多人包括Bill Gates 和 Andy Grove 建模，其中部分技术在微软的产品Xbox落地。这些在我的专著里均有详细介绍（Z. Liu and Z. Zhang，Face Geometry and Appearance Modeling，剑桥大学出版社2011年出版）。

人脸表情识别。

Tom是人脸表情识别的先驱，早在90年代初就开始表情识别的研究。当时他的工作除了基于单幅图像的appearance-based方法以外，更有基于连续图像序列motion-based的方法。这些研究都是后世研究的基础。

1996年底我在日本国际电气通讯基础技术研究所（ATR）学术休假时开始做的。那时我已经在几何领域做了10年的研究，很希望能在机器学习方面有所拓宽，最终将几何和机器学习结合起来。在ATR有不少人做人脸表情识别，而且有些现成的标记好的数据，但主要侧重从心理学和认知科学角度研究。我认真的读了Chris Bishop 的《Neural Networks for Pattern Recognition》，编了一些神经网络的算法，将它应用到人脸表情识别，说起来在这领域起步也是相当早的。最近两年和微软同事一起利用大数据和深度神经网络开发了自动的表情识别技术，已经用在微软的Cognitive Services上了。

视频会议。

这是个多学科综合性多媒体系统工程。Tom在视频会议上的研究早在80年就已经是这个领域的带头人了。他在图像视频压缩的贡献是无以伦比的。他在90年代开始了very low bit-rate communication system的研究，基本思想就是从视频中计算物体的刚性和非刚性的运动，以及物体的3D建模，只用在通信系统中传输编码的运动参数，然后在接收端用运动参数驱动3D模型，这样能实现超低比特率的视频通信。

我的研究方向自2001年起有很大转变，开始做语音处理，麦克风阵列，多声道声学回声消除，自然人机交互，全息三维重建，沉浸式远程临场系统等研究工作。有些技术已经授权给Polycom的CX5500 Unified Conference Station 和微软的Skype Room System。这是一个很令人激动的领域，能够释放人的潜力，大大增强社会的生产力，期待更多的技术革新和产品创新。

2014年，因为对计算机视觉和多媒体的贡献，我很荣幸的当选ACM Fellow。回想自己的职业成长和学术进步，我十分感激Tom对我的帮助和支持！从一个对电子和计算机深感兴趣的年轻人到算是略有建树的研究者，我因循着Tom的足迹一路走来。现代医药学之父，古希腊医者 Hippocrates 曾经说过：Life is short. The art is long. 这句话用来形容Tom一点不错。他为人师为人友，桃李满天下，学术精神永存！

这是我送给Tom的贺卡，感谢Tom和Margaret二十八年来对我的支持，祝愿Tom身体健康，阖家幸福！

作者简介：

Zhengyou Zhang received the B.S. degree in electronic engineering from Zhejiang University, Hangzhou, China, in 1985, the M.S. degree in computer science from the University of Nancy, Nancy, France, in 1987, and the Ph.D. degree in computer science in 1990 and the Doctorate of Science (Habilitation à diriger des recherches) in 1994 from the Universityof Paris XI, Paris, France.

He is a Principal Researcher and Research Manager with Microsoft Research, Redmond, WA,USA. He was a Senior Research Scientist with INRIA (French National Institutefor Research in Computer Science and Control), France, and spent a one-year sabbatical as an Invited Researcher with the Advanced Telecommunications Research Institute International (ATR), Kyoto, Japan. He has published over 250 papers in refereed international journals and conferences, and has coauthored five books. He is an inventor of more than 130 issued patents, and has received 8 Ship-It Awards at Microsoft.

Dr. Zhang is an IEEE Fellow, an ACM Fellow, the Founding Editor-in-Chief of the IEEE Transactions on Autonomous Mental Development, and an Area Editor of the Journal of Computer Science and Technology. He served as Associate Editor for the IEEE Transactions on Pattern Analysis and Machine Intelligence, the IEEETransactions on Multimedia, the IEEETransactions on Circuits and Systems for Video Technology, the International Journal of Computer Vision, the Machine Vision and Applications journal, and the International Journal of Pattern Recognition and Artificial Intelligence. He is on the Honorary Board of the International Journal of Computer Vision, and on the Steering Committee of the Machine Vision and Applications. He is serving as a General Chair of IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2017. He received the IEEE Helmholtz Test of Time Award at ICCV 2013 for his paper published in 1999 on camera calibration, now known as Zhang’s method.