使用 NVIDIA DOCA 2.5 提供高效、高性能的 AI 云
2024 年 1 月 24 日
大卫·威尔斯
NVIDIA DOCA 2.5的发布标志着其三周年, 探索彻底改变人工智能基础设施的最新网络产品
作为面向数据中心基础设施开发人员的综合软件框架,NVIDIA DOCA 已被领先的 AI、云、企业和 ISV 创新者采用。DOCA 2.5 的发布标志着其三周年。而且,由于代码库的稳定性和鲁棒性,加上多次网络和平台升级,DOCA 2.5 是第一个用于 AI 云部署的 NVIDIA BlueField-3 长期支持 (LTS) 版本。
除了 NVIDIA 交换机、BlueField DPU 和 SuperNIC 之外,DOCA 2.5 也是为支持最苛刻的 AI 工作负载而创建的联合设计平台的基本要素。NVIDIA 的网络组件构成 NVIDIA 全堆栈架构的一部分,可提供最佳的应用程序性能、安全性和数据中心效率。当与 NVIDIA 计算平台和软件工具一起部署时,它们可以提供额外的优势和协同效应。
以下是 NVIDIA 的一些最新网络产品,以及 DOCA 2.5 如何成为人工智能基础设施不可或缺的一部分。
AI基础设施的骨干
现在人们普遍认为,高性能网络是高效人工智能基础设施的支柱。为了实现最佳的人工智能性能,必须充分考虑生成式人工智能和基础模型的功能、实施和部署。
由于其独特的属性和巨大的计算需求,现代人工智能工作负载需要专门的网络基础设施才能以最高效率运行。我们在人工智能和加速计算领域处于领先地位,创建了 NVIDIA Spectrum-X 以太网网络平台来满足这一要求并提高人工智能云的有效性和性能。
NVIDIA 的 Spectrum-4 以太网交换机和 BlueField-3 SuperNIC 构成了 Spectrum-X 平台的基础,也是我们人工智能加速计算结构的基础。BlueField-3 SuperNIC 为各行各业提供了众多技术优势。当部署在我们的旗舰人工智能系统中时,BlueField-3 SuperNIC 不仅可以增强性能,还可以为租户作业提供确定性和隔离的性能。
图 1. NVIDIA Spectrum-X 和 BlueField-3 硬件
英伟达协同效应
Spectrum-X 平台结合了共同设计的一流硬件,可提供无与伦比的性能协同效应和无与伦比的客户体验。 作为设计的一部分,BlueField-3 SuperNIC 将以太网网络提升到了在基于 GPU 的服务器集群上运行的人工智能系统的新高度。
相比之下,传统的网络接口卡缺乏人工智能工作负载所需的功能。BlueField SuperNIC 可确保高效、快速地交付有效执行基于云的 AI 工作负载所需的流程。
当与 NVIDIA GPU 结合使用时,这种技术的结合(适用于大多数企业级服务器)为 AI 云计算创建了优化的解决方案,提供无与伦比的效率、性能和灵活性。
Spectrum-X 和 NVIDIA GPU 经过整个 NVIDIA 硬件和软件堆栈的验证,为 AI 云创建了真正无与伦比的以太网解决方案。凭借如此广泛的集成水平,微调的机会为真正独特的解决方案提供了定制级别的修改,致力于交付精确的工作负载。
作为完整堆栈的组成部分,DOCA 是人工智能难题的关键部分,它将计算、网络、存储和安全性联系在一起。
图 2. NVIDIA 硬件和软件堆栈
AI云和数据中心基础设施的新功能
DOCA 有助于实现当今最先进的 GPU 加速的 AI 工作负载。对于包含 GPU 和 NVIDIA BlueField-3 DPU 或 BlueField-3 SuperNIC 的系统,开发人员还有更多优势。
具体来说,DOCA 利用了 NVIDIA 主导的众多开发、集成和测试计划,支持和优化整个 AI 应用框架。NVIDIA 技术的融合推动了数据中心创新和快速 AI 应用部署。
DOCA 2.5 于 2023 年 12 月发布,提供了多项增强功能,可提高数据中心的性能。虚拟功能VF的数量和“东西向”网络流量都在持续增加。为此,必须使用 DOCA 和 BlueField-3 SuperNIC 来优化网络并建立其作为现代人工智能基础设施骨干的功能。
图 4. DOCA 2.5 架构
DOCA-PCC 现已推出
在多个 AI 作业同时运行的多租户 AI 云环境中,可能会出现网络拥塞。
DOCA PCC 库(现已成为 GA)提供了高级编程接口,使合作伙伴能够实施定制的拥塞控制 (CC) 算法。该库使用 NVIDIA BlueField-3 SuperNIC 加速进行 CC 管理,并提供一个 API 来抽象硬件复杂性以简化编程。合作伙伴可以专注于 CC 算法的功能,并通过 BlueField 硬件加速快速实施。
DOCA PCC 还使您能够灵活地开发最佳解决方案来处理集群中的拥塞。定制的拥塞控制对于人工智能工作流程至关重要,可以实现性能隔离、提高公平性并防止有损网络上的数据包丢失。
NVIDIA Spectrum-X 是一种突破性的以太网网络解决方案,用于构建多租户、超大规模 AI 云。它使用DOCA PCC来实现拥塞控制。
DOCA Flow:云部署的新增功能和增强功能
DOCA Flow是用于开发DOCA服务的重要编程工具。DOCA 2.5 增加了对 NVIDIA OVS-DOCA 开发的额外支持,这是一种创新且高性能的虚拟交换机,原生于 NVIDIA NIC 和 DPU 以及 NVIDIA DOCA HBN 服务。
借助 NVIDIA DOCA Flow,您可以定义和控制网络流量、实施网络策略以及以编程方式管理网络资源。它提供网络虚拟化、遥测、负载平衡、安全实施和流量监控。
这些功能有利于以低延迟处理高数据包工作负载、节省 CPU 资源并降低功耗。从根本上说,DOCA Flow 是云网络中多个用例的关键推动者。用于开发定制软件定义网络 (SDN),这是 CSP 设计未来网络的关键构建块。
DOCA 服务
以下是 DOCA 2.5 版本中升级的 DOCA 服务的一些示例:
- 主机基础网络
- 多卡萤火虫
- 存储 SNAPv4
基于主机的网络
基于主机的网络 (HBN) 在 DOCA 2.5 中进行了升级,是一种 DOCA 服务,使网络架构师能够纯粹基于 L3 协议来设计网络,从而使路由能够在网络的服务器上运行。就 BlueField 而言,HBN 解决方案将一组网络功能打包在一个容器内,该容器被打包为在 DPU 上运行的服务 Pod。
DOCA HBN 使网络架构师能够创建无控制器虚拟私有云 (VPC)。这对于部署裸机即服务 (BMaaS) 基础设施的 CSP、电信公司和企业客户来说是理想的选择。
与传统的网络解决方案相比,使用 DOCA HBN 可为您带来许多好处。除了提高部署的可扩展性和效率之外,DOCA HBN 还提供增强的安全选项、简化的底层网络结构并降低运营成本。如果与第三方交换机制造商结合使用,DOCA HBN 会将多个架顶式 (ToR) 交换机功能转移到 BlueField-3 DPU 或 SuperNIC,从而降低第三方许可成本。
有关新 HBN 功能的更多信息,包括对 RoCE、路由和 ACL 增强功能的支持,请参阅DOCA 2.5 发行说明。
DOCA萤火虫
此功能提供基于精确时间协议 (PTP) 的时间同步服务,该服务使用 NVIDIA DPU 和 SuperNIC 的硬件加速。
行业特定的 PTP 用例包括以下内容:
- 电信公司:基于网络的时间同步对于 5G 移动部署至关重要
- 媒体和娱乐:
- 视频、音频和元数据传输的 QoS
- 满足严格的广播质量要求
- 数据中心:时间分布
- 金融服务业:
- 高频交易(HFT)
- MiFID II 合规性(必需)
DOCA Firefly 是 DOCA 2.5 的新增功能,现在包含行业特定的配置文件,以改善用户体验并简化部署。配置文件当前包括媒体和电信,它们配置为包括行业特定的功能和性能参数。
存储 SNAPv4
BlueField-3 上的 DOCA SNAPv4 服务添加了内联 AES-XTS,这是用于保护存储设备上静态数据机密性的默认加密算法。SNAP 现在可在硬件中加速 AES-XTS 加密,从而优化和改进加密过程,同时受益于 CPU 开销的降低。
virtio-blk 的 SNAPv4 服务现在提供恢复/热升级/LM,无需强制排序。这一新功能改进了对恢复、热升级和实时迁移功能的支持,意味着不再需要使用强制顺序流量进行操作。这相当于为现实环境中的客户提供了一个更实用的工具,典型客户(例如 CSP)现在可以为执行重要存储任务的最终用户提供更长的正常运行时间和不间断的性能。
更多更新
有关以下更新和功能列表的更多信息,请参阅DOCA 2.5 发行说明:
- 设备认证
- DPA 用户应用程序签名和身份验证 [测试版]
- DPU 固件 TPM [测试版]
- DPU升级工具
- 新的资格、认证和管理功能
结论
现代人工智能工作负载需要复杂的网络解决方案才能以最高效率有效运行。如今,全球各地的组织在尝试将人工智能嵌入其现有的运营和技术基础设施时都面临着类似的重大挑战。
为了满足这一要求,作为AI和加速计算领域的领导者,NVIDIA创建了一个优化的网络平台来驱动AI云计算的性能。该平台有效性的核心在于各种 NVIDIA 品牌硬件和软件解决方案所采用的互补技术所获得的协同效应。
在其全栈架构中,NVIDIA 实施了多项设计考虑,以确保提高各个平台之间的操作效率。由 NVIDIA 以太网交换机和 BlueField SuperNIC 组成的解决方案 Spectrum-X 与 NVIDIA GPU 相结合,为 AI 云创建了一个真正无与伦比的以太网平台。借助最新版本的 NVIDIA DOCA SDK,NVIDIA 取得了进一步的进步,进一步支持当今最先进的 GPU 加速的 AI 工作负载。
要开始您的开发之旅并享受 DOCA 提供的所有优势,请立即下载 NVIDIA DOCA。有关更多信息,请参阅以下资源:
- 揭秘 NVIDIA DOCA
- 了解何时使用 DOCA 驱动程序和 DOCA 库
- DPU免费课程DOCA 简介
- DOCA Flow 入门自定进度课程
- 今天提供人工智能就绪基础设施,为明天的人工智能工厂提供动力GTC 会议
相关资源
- GTC 会议:利用高性能人工智能计算加速自动驾驶汽车开发
- GTC 会议:利用 AI 为企业规模的广告投放系统提供动力
- GTC 会议:为企业就绪的生成式 AI 构建端到端解决方案
- 软件开发工具包:DOCA
- 网络研讨会:利用云就绪 AI 推理解决方案的力量并体验云端 LLM 推理部署的分步演示
- 网络研讨会:人工智能时代的网络
标签
网络安全| 数据中心/云| 边缘计算| 网络| 云服务| BlueField DPU | 多卡| 初学者技术| 公告| DPU | 精选| 新闻| NIC
关于作者
关于 David Wills David 于 2020 年作为 Mellanox Technologies 收购的一部分加入,目前担任 NVIDIA 产品营销经理。David 在各种商业营销职位上拥有超过 15 年的经验,专门从事渠道和合作伙伴营销,曾正式领导渠道Mellanox Technologies 在 EMEA 的营销。David 是英国特许营销学会的会员,并在牛津布鲁克斯大学商学院获得了营销学 MBA 学位。
查看大卫·威尔斯的所有帖子
REF
https://developer.nvidia.com/blog/delivering-efficient-high-performance-ai-clouds-with-nvidia-doca-2-5