引领数据领域AI工程化落地，为什么会是云测数据？

文|智能相对论（aixdlun）

作者|叶远风

算法、算力、数据……AI落地现在还需要AI工程化

2020年，Gartner发布《2021年重要战略技术趋势》，认为AI工程化（AI Engineering）将是“需要深挖的趋势”，到了2021年年底，在Gartner的《2022年十二大重要战略技术趋势》中，AI工程化又被进一步明确为未来三到五年“企业数字业务创新的加速器”；

几乎就在同一时期，阿里发布面向AI工程化的一体化大数据和AI产品体系“灵杰”，称要推动“AI落地范式的升级，共同推动AI产业迈向新的增长”；

到了不久前落幕的服贸会上，人工智能数据企业云测数据发布了面向AI工程化的新一代数据解决方案，其价值设定为“高度支持企业所需数据的高效流转、持续进行数据处理任务，提高规模化生产效率”；

而即将召开的由 LF AI & DATA 基金会主办、关注AI领域前沿革新的 AICON 2022，将为AI工程化设置专门的分论坛……

毫无疑问，在AI加速实现场景落地的今天，“AI工程化”已经成为行业普遍的议题，被认为是AI发展必然的趋势之一。

什么是AI工程化？

按Gartner比较官方的定义，是“使用数据处理、预训练模型、机器学习流水线(MLOps) 等开发AI软件的技术统称，帮助企业更高效的利用AI创造价值”。“智能相对论”认为，AI工程化更简单的理解，就是已经十分成熟的软件工程将“软件”扩展到AI后的一种针对AI开发特点的适配与进化，通过系统化、规范化、可度量地使用各种工程方法和工具，确保AI软件能够达到预期。

这里，可以通过数据方面的AI工程化创新来帮助直观理解。云测数据面向AI工程化的新一代数据解决方案，通过成熟数据管理和标注平台与企业完成系统集成+支持企业自定义预标注算法接口+人员管理及项目管理体系+安全交付软硬件支持的方式，在保证数据隐私安全的标注环境下，高度支持企业所需数据的高效流转、持续进行数据处理任务，从而提高规模化生产效率：

可以看到，云测数据的AI数据解决方案利用了大量工程方法和工具，在宏观布局上表现出系统化、规范化的特点，大量细分模块与能力也体现出AI开发工作方方面面的可度量性，最终服务于AI开发的全局，整体“一盘棋”（传统软件工程是“一条线”），这就是AI工程化能够带来的直观感受。

而AI工程化为什么得到从权威机构、互联网大厂到数据服务创新企业的普遍重视？这可能要从AI发展的阶段性需求谈起。

算法、算力、数据……

AI落地现在还需要AI工程化

AI的发展有标准的算法、算力、数据三要素，在Gartner看来，任何一个行业、企业，只要有场景，有积累的数据，有算力，都可以落地AI应用。但Gartner同时指出，落地的效率、周期可能会远超预期，其研究摆明，“只有53%的项目能够从AI原型有效转化为生产”。

这意味着，在当下场景落地成为主流的阶段，并非只具备了精巧的算法、充沛的算力、足够的数据就一定能够做好AI场景应用、实现好技术的价值——正如Gartner所言，“AI 要成为企业的生产力，就必须以工程化的技术来解决模型开发、训练、预测等全链路生命周期的问题。”

“智能相对论”认为，传统的软件工程针对“产品”，主要经历需求分析、系统设计、代码实现、验证、发布以及运维的过程，瀑布式的流水线走下来，“产品”做好了发出去、做做售后就可以了。

而AI的场景落地虽然也给出的是“产品”，但其背后本质上是一系列智能化“能力”的组合。既然是能力，开发流程就与传统软件有较大出入，是问题抽象、数据准备、算法设计、模型训练、模型评估与调优、模型部署的过程，在部署之后，还需要根据场景实践不断反馈到数据准备和算法设计上，从而让AI的“能力”不断接近和达到预期。

因此，传统的软件工程体系做法已经无法支撑AI开发的需要，必须要有新的方式来推动，AI工程化提供了专门适配AI开发的一系列方法、工具和实践的集合，就起到了这个价值，为算力、算法和数据提供了新的利用方式，持续为场景创造价值。

这也说明，大规模落地阶段，AI工程化更加被深刻需要。目前而言，市面上大体有两种面向AI工程化的做法。

一种是AI开发框架型，也即原本就提供AI开发服务的各种深度学习框架，将服务延展而来，其优势在于AI框架原本就是AI领域的基础软件，处于承上启下的位置，提供面向AI工程化的服务“近水楼台”。

这方面，以Google、Meta等科技巨头为代表，国内有华为、百度等，以TensorFlow、PyTorch、MindSpore、PaddlePaddle等各自的深度学习框架为基础，提供一系列与AI工程相关的生态技术和工具，如领域套件、模型可视化工具、调试调优工具、高级API等。

另一种是AI服务平台型，也即过去为企业提供算力、算法、数据相关服务的企业，随着客户需求的发展专门提供面向AI工程化的能力。阿里的“灵杰”（算法方面）与云测数据面向AI工程化的解决方案（数据方面）都是如此。

水到渠成，面向AI工程化的数据解决方案

是AI开发服务不断成熟的结果

Gartner在《2022年十二大重要战略技术趋势》认为，到2025年，前10%做到AI工程化最佳实践的企业相对于之后90%的企业，将从AI创新中得到超过3倍的价值，足见AI工程化的重要性。

所以，相关企业寻求AI工程化成为一种必要，也催生出较为广阔的产业链机遇空间。

这其中，随着云测数据推出面向AI工程化的新一代数据解决方案，在对外服务这件事上，数据领域的AI工程化步伐更快一些。在数据方面几乎都有强烈需求的AI企业们，已经可以率先获得整体化的服务。

但是，从云测数据此次发布的解决方案来看，数据方面的AI工程化虽然是某种程度上的蓝海市场，但却并非人人都可以参与进来提供相关的解决方案以获取市场机会，它基于已有的AI开发实践或服务积累，不是凭空而来，是长期的AI工程化实践（但没有喊出这个概念）抽离、整合而来。

以其中的平台工具模块为例，其解决方案有丰富的数据标注工具：

以及一个在流程和逻辑上闭环的数据流转管理体系（通过这个体系也可以对AI工程化究竟做了什么有更直观的印象）：

这两大内容，显然不是一个新晋玩家所能提供的，它们都源于云测数据过去向AI企业提供通用数据集、数据标注平台与数据管理系统等生产工具以及多年的AI训练数据服务的行业成熟经验。

云测数据的主要业务是面向智能驾驶、智慧城市、智能家居、智慧金融、新零售等众多领域提供一站式AI数据处理服务，已经先后推出过“云测数据标注平台”、“AI数据集管理系统”等面向市场的成果，其数据标注精度最高做到了99.99%，曾帮助某自动驾驶车企实现数据清洗、标注工作与原流程相比提升2倍的流转效率。

正是因为过去实现了从“数据原料”到最后的“数据成品”全链条打通，做到场景数据专业化、高质量交付，有足够的技术成熟度和标注经验与管理流程，现在云测数据这样的企业才能够推出面向AI工程化的数据解决方案。

除了平台工具模块，实际上，云测数据的解决方案在保障数据安全模块上的部署，也来自于这种积累——必须在数据质量和交付效率之外保证数据安全，自然就沉淀了安全管理的一套体系，现在可以拿过来整体化输出，既提供了一套安全交付的标准，也包括多个ISO企业安全体系认证。

以安全交付标准为例，云测数据在硬件配置、网络安全、物理安全、人员安全管理上都进行了能力设置，这些能力针对AI开发中涉及数据存储、传输的方方面面，以事先体系化布局而不是事后一个个补漏的方式来规避数据安全风险，而这，就是“工程化”。

在这种做法下，数据安全的提升是显而易见的。

最直观的，由于云测数据所提供这套体系让数据存储、数据标注、数据传递等有统一的管理，数据的流转等不需要经过人力环节（人力主要负责工单而不是数据本身的流转，比如不用人力递送数据硬盘），这使得AI开发的数据环节大大降低了对人的依赖，减少了失误等风险发生的可能性。

更进一步看，在平台工具、安全模块之外，面向AI工程化的数据服务的机遇只属于有行业经验的企业，也促成后者能够进行更多业务合作的探索，人员和项目管理模块就是如此。

有关数据的AI开发工作除了技术性的内容，还离不开AI人力相关的管理，离不开项目管理，而云测数据基于其过去在数据方面的人才、项目管理经验，在解决方案中也提供有匹配人员管理与项目管理的一套并行的体系作为支撑，包括招聘体系、业绩培训体系、领域知识培训体系、项目管理体系、责任安全体系、绩效职级管理体系等，其本质是以认知资源的共享换取商业价值，典型如，云测数据更了解数据标注人才的需要、更知道从哪里可以找到特定的人才、如何培育人才、更知道怎么管理项目。

当然，围绕数据、作为一种根本上的To B服务，尽管有先天优势，但云测数据面向AI工程化的数据解决方案的落地，还需要考虑对不同AI开发企业的适配，毕竟AI工程化是系统工程，牵扯面往往较广。

这方面，通过API集成屏蔽不同企业的差异、做到广泛适配是解决之道，还可以看到，云测数据的解决方案中就在平台工具模块中设置了标准协议接口、数据价值可视化、数据处理工作台、数据权限管理等，来让不同企业的管理体系都能快速进行对接。

AI“工业化大生产”来临，

数据领域的AI工程化与大模型率先汇流

AI工程化其价值和机遇不仅在于AI开发过程，其对大模型的促进作用也不容忽视。

从更宏观的视野看，AI工程化的趋势与当下AI领域的热点大模型一样，都是在推动AI“工业化大生产”（高效率的批量化AI落地，而不是作坊式的一个个生产），只不过一个从开发全过程出发，一个从模型本身出发。

二者碰撞到一起并非只是一种巧合，AI工程化与大模型也在实现着协同。

一方面，这体现在大模型开发本身，也即“预训练”阶段的工程化。

例如，知名NLP领域的大模型GPT-3其模型复杂度非常高，仅模型参数就高达1750亿个，训练数据量达到45TB，训练出的模型有700GB大小。

这么复杂的工作，肯定不是有了算法、算力以及数据就能搞定的，其开发工作有31位参与者，形成了一套在数据处理、模型设计、代码编写、调试参数等领域各司其职的复杂工作体系来保障工作的顺利推进，其本质就是AI工程化。

另一方面，这体现在大模型的场景调优上，也即“微调”阶段的工程化。

大模型时代许多场景只要基于基础大模型进行微调便可以产生优质的场景应用，云测数据总经理贾宇航认为，AI工程化在这个“微调”的阶段将起到重要的作用，帮助更多场景应用高效、高质量交付与持续优化。

现在，随着云测数据推出面向AI工程化的数据解决方案，以及行业内许多典型大模型开始走向应用，至少在数据领域，AI工程化与大模型的汇流已经在开始。

当然，也有预训练阶段与“微调”阶段通吃的AI工程化服务做法，例如阿里的“灵杰”就宣称既可以实现超大规模模型的构建，也可以实现垂直场景小模型“蒸馏”。

无论如何，数据领域的AI工程化与大模型汇流，共同推动AI应用加速实现更广泛、更优质的场景落地，这其中涌现了新的商业合作机遇，但更重要的是在工程化开发与预训练的优势叠加下，AI将真正走入千行百业，变得更加普惠。