专注数据基础设施,Alluxio 如何让 AI 和数据价值全面释放?

作者 | 郑思宇

12 月 9 日,AI 和大数据基础设施方案提供商 Alluxio 联合北京大学计算机学院等单位举办了 2023 全球 AI 前沿科技大会北京站,介绍了最新产品 Alluxio Enterprise AI 与为 Alluixo Enteprise Data 开发的重磅特性 Alluxio Edge。作为数据编排领域的先行者,Alluxio 的最新产品与特性瞄准了市场上最热门的 AI 与大数据主题,希望通过数据编排这一关键工作流环节的技术创新,为企业的相关应用带来显著的加速效果和成本效益提升。

在大会主题演讲中,Alluxio 创始人兼 CEO 李浩源将 2023 年定义为 Alluixo 机器学习与人工智能的开启元年。李浩源表示,Alluixo Enterprise AI 将打破 AI 数据治理的“不可能三角”,而 Alluixo Edge 则会大幅提升企业大数据分析平台的效能,他希望新产品与新特性能够像 Alluxio 以往的创新一样得到业界广泛使用,从而助力各行业数据和 AI 价值的全面释放。

1 Alluxio Enterprise AI:在恰当的时间获取正确的 AI 数据

回顾 Alluxio 的发展历史,这家公司从创业以来一直专注于填补企业不同数据平台之间的鸿沟。实践中,企业往往会选择、部署多个数据平台,各类应用(数据消费者)需要从不同的来源获取数据,不仅增加了复杂性,数据传输效率也往往不尽如人意。Alluxio 则将市面上常见的数据源和消费接口统一到自研的数据编排层上,负责屏蔽不同来源与输出接口的差异性,同时通过数据缓存优化方案来提升热点数据的访问效率。由此以来,即便企业部署了很多数据存储方案,甚至有很多数据部署在全球多个物理区域,企业应用又需要通过多种 API 访问这些数据,Alluxio 也能让整个流程的效率和便利性接近本地单数据源方案的水平。

凭借数据编排领域的先行优势,发展近 10 年的 Alluxio 已经成为业内广为人知、广泛应用的核心基础设施应用。在云计算快速普及的浪潮中,由于云端服务和产品普遍开始引入存算分离设计,加之混合云、多云、跨云环境逐渐成为主流,Alluxio 的能力得到了普遍认可。显然,取得成功的 Alluxio 并没有就此止步,面对 2023 年的生成式 AI 变革,这家公司迅速响应,推出了 Alluxio Enterprise AI 这样一款直击企业痛点的新品。

如今,大规模 AI 应用已经成为各行业的前沿必争之地,每一个细分领域都有企业开发自己的大模型技术或生成式 AI 应用,并为此投入大量资源组建庞大的计算集群用于训练和推理任务,即便芯片短缺造成硬件成本飙升也拒绝退缩。但在集群开始运行后,企业管理者经常尴尬地发现成本高昂的硬件平台实际算力利用率总是偏低,换句话说数量可观的算力资源是处于闲置浪费状态的。

造成这种现象的原因有很多,包括软件优化、计算错误、IO 性能不足等,其中 IO 瓶颈是造成集群空转的非常重要的因素。一般来说,企业用于训练和推理模型的数据也是来自多个数据源的,很多数据存放在不同的云服务中,当计算集群从这些数据源获取数据时,很容易遭遇带宽低下、延迟较高的困境,使计算芯片的宝贵时间白白浪费在等待数据这一环节上,这种情况有时甚至可以造成超过 50% 的计算节点空转现象,换句话说企业的 AI 基础硬件设施投资有一半都被浪费了。

为了解决这个问题,Alluxio 提出了一种分层存储方案。在硬件层面,Alluxio 将每个计算节点的本地存储当成速度较快的缓存,缓存访问失败后才会访问最后的云端数据源:

Alluxio 将这种设计称为去中心化对象存储库架构(DORA)。AI 训练流程开始后,Alluxio 会自动选出训练热点数据,从云端复制到每一个训练节点的内部存储上。由于节点内部存储的性能远超云端,这样的设计大大提升了 IO 效率,官方宣称可以提供 2-4 倍的训练性能提升。更为诱人的是,获得如此大的收益并不需要企业额外购买大量硬件,Alluxio 只是充分利用了现有计算节点闲置的存储空间来加速 IO 而已,堪称“四两拨千斤”。

当然,要从海量数据中准确挑选出热点数据,还要为每一个计算节点分配应有的训练数据,尽量减少缓存未命中情况,避免从云端访问数据是这一方案设计中的最大难点。Alluxio 宣称,自己凭借多年以来数据编排领域的丰富经验,可以通过少量的处理节点轻松应对数以千亿计的存储对象,获得相比云端存储数十倍的元数据访问性能,而分布在计算节点上的存储则能支持 TB 级的总带宽与毫秒级的访问延迟。在获得如此强大能力的同时,由于企业无需采购昂贵的全闪存存储硬件来加速 IO,整体成本也能下降一半甚至 2/3,最终突破数据治理的“不可能三角”。

Alluxio Enterprise AI 的另一大优势,在于它能够将机器学习引擎与不同的存储系统连接起来,并跨区域和跨云将数据虚拟化,以简单和统一的方式使得大规模数据应用访问和管理来自不同数据源的数据,进而消除数据冗余,避免管理多个数据副本、减少对专用网络和存储硬件的依赖,无论数据位于何处都可以灵活地在任何位置部署计算,充分利用计算资源。Alluxio 还支持云原生容器化自动部署,完全适配 Pytorch、Tensorflow 等机器学习框架,可以做到上层引擎“无感知”,训练脚本“零改动”,数据准备“无拷贝”,数据清理“全自动”,显著降低部署和运维成本,使得企业在消除 AI 数据 IO 瓶颈的同时,获得一个大幅提升数据多源管理效率的治理平台。

Alluxio Enterprise AI 所承诺的收益对于正在大举进军生成式 AI 产业的企业而言无疑是极具诱惑力的:不需要额外的大笔硬件投资,不需要复杂的软件技术栈改动,也不需要开发和运维团队耗费大量时间学习掌握,只需一套接近开箱即用的解决方案就能轻松撬动 50% 甚至更多的闲置计算资源,附送高效率的数据管理能力,这样的前景如此美好,甚至令人难以置信。不过 Alluxio CEO 李浩源在大会上表现出了充足的信心,可以推测该公司对于 Alluxio Enterprise AI 的市场前景是非常看好的。

2 Alluxio Edge 星翼,为 Alluxio Enterprise Data 新增的重磅特性

大会上,李浩源详细介绍了 Alluxio Edge(中文名星翼),被认为是公司对现有 Alluxio Enterprise Data 产品新增的重磅特性。

具体而言,星翼是与 PrestoDB 和 Trino 应用程序搭配使用的一个库,它可以利用 PrestoDB 或者 Trino 集群的本地存储空间来缓存数据。当大部分热数据能够放在本地磁盘中时,这个库可以带来最佳的效率和成本效益。

简单来说,如果用户的数据分析框架只需要从一个单区域云数据源获取数据,且热点数据量并不大时,就可以使用星翼来利用节点本地存储的性能。由于星翼的体量足够轻,它对企业数据架构的影响也是最小的,然而它带来的性能提升依旧非常显著,包括端到端查询的性能提高约 1.5 倍到 10 倍,10 到 50 倍的 IO 吞吐量提升,云存储 API 的调用也能减少 50% 到 90%,底层存储的负载同样可以大幅下降。

Alluxio 原有的 Alluxio Enterprise Data 则更适用于混合云、多区域、多计算环境。在混合云或多区域环境中,Alluxio Enterprise Data 具有免复制机制,访问时只提取和缓存必要的数据,无需将大型数据集从云端完整复制到本地,减少 I/O 时间和成本,并缩短了分析所需的端到端时间;在多计算环境中,Alluxio Enterprise Data 可充当不同计算集群之间的高性能分布式缓存,使得多个应用的数据访问更加高效,并能轻松实现横向扩展。显然,星翼是 Alluxio Enterprise Data 面向单一区域和计算场景的重要能力补充。当企业数据架构较为简单时,使用星翼就能立刻获得巨大收益;当企业业务扩展导致数据架构随之更新后,就可以平滑升级到 Allxuio Enterprise Data 来满足更多场景的需求,从而进一步扩大 Alluxio 在这一领域的优势地位。

3 加速智算应用,Alluxio 前景值得期待

目前全球排名前 10 的互联网公司中有 9 家在使用 Alluxio,并在科技、金融、电信等行业得到广泛应用。能够取得这样的成绩,主要归功于 Alluxio 选择了一条能够给企业带来明显价值,同时又被很多人忽视的细分领域赛道。经过近十年的发展,Alluxio 在数据编排领域的地位已经非常牢固,今年发布的两款新品正是这家公司厚积薄发的成果与已有优势的延伸。

考虑到各行业都越来越重视数据与 AI 的应用和价值,Alluxio 产品的适用领域也将不断扩大。随着 Alluxio Enterprise AI 的推出与成熟,它很可能会在生成式 AI 革命中成为企业数据基础设施不可或缺的组成部分。正如李浩源所言,AI 和数据价值的全面释放,离不开更智慧、更强性能、更经济高效的计算能力与基础设施平台的强力支撑。Alluxio 将扮演企业至关重要的数据平台角色,为企业智算应用插上翅膀,大幅提升业务效率,助力企业决胜未来。