华为计算黄之鹏:AI开源框架已经到“汽车替代马车”的阶段 | MEET2021

编辑部 整理自 MEET 2021 量子位 报道 | 公众号 QbitAI

AI的发展,除了要有应用的落地、芯片等技术的支撑,还离不开一个非常重要的基础——AI算法的框架

然而在TensorFlow、PyTorch等框架,已然成为主流选择的当下,再去创造新的AI算法框架,是不是属于“重复造轮子”?

在MEET 2021智能未来大会中,华为计算开源开发与运营部副总监黄之鹏回答道:

AI框架的发展,已经到了一个类似于历史上汽车的出现替代马车的阶段。 也就是说,我们正处于20世纪初的那样一个变革年代。

黄之鹏认为,华为的MindSpore,便是这样一种“迈进汽车时代”的AI框架,并且还是AI开源新势力

为了完整展现黄之鹏对AI开源框架步入新时代的所思所想,在不改变原意的基础上,量子位对他的演讲内容进行了编辑整理。希望能够让你更加了解AI算法框架。

关于MEET 智能未来大会:MEET大会是由量子位主办的智能科技领域顶级商业峰会,致力于探讨前沿科技技术的落地与行业应用。本次大会现场有李开复等20余位行业顶级大咖分享,500余名行业观众参与,超过150万网友在线收看直播。包括新华社、搜狐科技、澎湃新闻、封面新闻等数十家主流媒体在内纷纷报道,线上总曝光量累计超过2000万。

要点

  • AI框架的发展,已经到了一个类似于历史上“汽车的出现替代马车”的阶段。
  • 现有的框架,已经达到了马车时代的一个顶峰。
  • 作为“汽车时代”的一个崭新时代的产品,MindSpore有超乎此前想象的效率和性能
  • MindSpore五大关键特性:自动并行、动静态图结合、二阶优化、全场景部署、全栈协同加速。
  • MindSpore的社区治理,是业界AI开源框架诞生以来,第一个采用开放治理模式的开源社区。
  • MindSpore作为一个新事物,还是需要众人拾柴,需要大家的多多关爱和关注

(以下为黄之鹏演讲分享全文)

为什么说AI框架已经到了“汽车替代马车”的阶段?

今年这一年以来,我们被问得最多的问题,就是华为为什么又要做一个框架?

我们给过各种各样技术上的具体回应、分析,但其实我觉得通过一个故事可以讲得更直观。

AI框架的发展,已经到了一个类似于历史上“汽车的出现替代马车”的阶段。也就是说我们正处于20世纪初的那样一个变革年代。

现有的框架,我们可以把它看作是已经达到了马车时代的一个顶峰

马车可以做到非常的舒适、精致,而且它可以做到足够的运行效率。

而且造一辆马车可能也有非常好的上下游的生态——马车的零部件,包括马夫的培育都会有一套很好的系统。

所以我们可以回想一下当19世纪末、20世纪初汽车刚刚诞生的时候,大家也都会有这种困惑,马车已经发展得很好了,为什么要换成汽车呢?

我们觉得以MindSpore为代表的新一代的框架体系、开源生态的出现,其实代表着一个非常重要的节点,就是我们全面开始迈进“汽车时代”。

可能它还没有“极致的马车”那么舒适,但是它有很强的操控感;尤其在昇腾环境上,运行感非常好。

而且,MindSpore还是一个工业化的产品,具有非常好的工业化能力,尤其是对大规模自动化并行的支持,这个应该是前所未有的。

作为“汽车时代”的一个崭新时代的产品,MindSpore有超乎此前想象的效率和性能,而且它意味着我们可以构筑一个全新的、非常硬核的科技生态。

MindSpore这类新框架体系的出现,意味着有更多的AI从业者、开发者,可以开始更加便捷和高效地进行AI开发。

MindSpore要解决AI框架所面临的挑战和趋势

除了上面说到的时代变迁的大背景,华为开发MindSpore最重要的是尝试解决很多具体的问题:

  • 如何处理超级大的模型或数据集?
  • AI算法工程师如何更高效、更简洁地开发?
  • 企业的安全问题,尤其是生产环境的鲁棒性如何保障?
  • 如何将优秀的AI硬件能力释放出来?

针对这些问题,华为开发了MindSpore这一新框架,并在今年3月28号全面开源

MindSpore本身处于“华为昇腾AI解决方案”的一环,就是AI框架中的一环。

MindSpore是有如下这些部件组成。

Mind Expression,就是MindSpore的前端,提供了足够简单、简洁,方便开发者开发的pythonic实现,这个前端也提供了端边云统一的API。

除了ME之外,MindSpore大量的优秀特质,其实体现在我们的编译层,给整个MindSpore提供了基于编译的优化,这使得它的运行性能会达到一个非常好的状态。

除此之外,也提供了很多工具,比如说数据处理,以及可视化的工具,也就是MindData、MindInsight等组建。

还提供了模型鲁棒性和对抗性检测的工具MindArmour,同时,也在逐步建设ModelZoo,逐渐丰富的模型。

MindSpore关键特性

在特性上来说,MindSpore主要有五个非常关键的特性:

一是自动并行

并行计算是所有深度学习框架都会涉及的内容,MindSpore提供的是一种非常好的自动并行的能力。

尤其运行在昇腾环境下,通过一条语句声明,声明在使用多少数量昇腾资源,只需要提供一条语序,MindSpore就会帮你完成分布式并行能力。

而现有的框架,大多需要数据工程师手动写分布式并行的策略——如何切分数据、如何切分模型、如何分布这些分片在哪些配置的节点上等。

这些工作是有很强的专业门槛,自动并行有效的降低了门槛,提高的大家开发的能力和效率。

二是动静态图结合

MindSpore的特点,就是一行代码完成动静态图的切换。动态图和静态图同时支持已经不是一个新话题,对于MindSpore来说,除了天然的支持动态图、静态图之外,在昇腾环境上,也同时支持一行代码完成动态图和静态图的切换。

这样的好处是方便数据开发者在测试环境和生产环境中切换与实现,用动态图调优,静态图实现生产环境的部署。

三是二阶优化

高阶优化实际上,一直是很多框架试图在做的一个东西,但不是所有框架可以做到性能增益非常好的二阶优化的方案。

以ResNet50@ImageNet2012为例,一阶方法需要90 epoch,二阶优化只需42 epoch ,可以实现20%训练效率提升。

四是全场景部署

全场景协同一直是MindSpore一个特别大的亮点。,可以智能匹配端、边、云多样设备。

五是全栈协同加速

MindSpore是一个业界第一批,面向系统软硬件co-design的一个框架,甚至可以做到整图的完整卸载,这个可以达到与通用GPU硬件对比的程度,实现一个非常好的提升。

MindSpore案例介绍

下面介绍几个具体的案例。

首先,是与鹏城实验室合作的E级AI集群计算系统。MindSpore可以支撑这种E级算力的大规模学术研究、应用创新。

另一个案例是与深圳湾实验室分子动力学团队的合作

最近有一个新闻非常火,就是AlphaFold2的极高打榜分数,它用到的技术是分子动力学领域和深度学习的结合。

深圳湾实验室是在做深度分子模型相关研究的时候,发现MindSpore是天然的适应他们的需求。

我们即将会有新的MindSpore原创的模型出来,进一步解决像分子动力学这种,需要大算力场景优化的问题。

除了客户的案例,华为也有自己大量的应用

在华为应用里面,大量地用到MindSpore,包括大家用华为手机,华为手机上面只要AI相关的应用,其实它的底层大多都是MindSpore Lite在支撑。

所有的MindSpore Lite代码,一直都全面开源在码云和GitHub上面,所见即所得,都是全面开源的。

同时,也与众多高校展开合作,做了很多的生态。

包括华为跟清华朱军老师的珠算项目团队,做深度概率编程的合作;和中科大李诚老师的团队,做的有关自动并行的合作等等,也是通过这种合作加速创新。

这些代码都是开源在代码仓中,在官网上也会持续更新。

MindSpore社区发展

MindSpore是今年3月底开源,也只是一个刚刚开源9个月的一个全新框架项目。

这9个月,MindSpore的社区还是得到了长足的发展,现在总计有超过12000个pull request在社区里面,这是一个非常惊人的数字。

我们的总下载量到年底有望达到10万。

MindSpore绝对不会是一个局限在中国的一个社区,从诞生之始就是一个立足于中国,但是面向全球开发者的全球性的开源社区。

社区治理方面,MindSpore应该是业界AI开源框架诞生以来,第一个采用开放治理模式的开源社区

在MindSpore社区,有来自全球14名技术专家组成的技术委员会,他们通过公开的讨论,公开的会议,把控整个社区的技术发展方向。

我们在技术委员会的指导之下,有特殊兴趣组(Special Interest Group),来负责各个模块的开发;当然也有需要跨模块协作的Working Group,比如说分子动力学我们成立了一个工作组。

因此,MindSpore都是以业界主流开源社区形成的规范的开源的方式去做。

我们也新设立了专家委员会、用户委员会,希望吸引各行各业,AI领域各个专项领域的专家,加入到我们的社区里面来。

MindSpore Study Group (MSG),是今年的另外一个工作,是面向区域、面向城市本地的开发者线下社团。

另外面向海外,我们今年也做了很多线上的活动,例如有在俄罗斯的活动,印尼在线的活动等等。

最后,MindSpore作为一个新事物,也还是需要众人拾柴,需要大家的多多关爱和关注。

谢谢大家!

(最后,如果想回看大会全程,请点击阅读原文)