什么是超级网卡(SuperNIC)?
2023-11-20 Itay Ozery
SuperNIC 是一种用于 AI 云数据中心的网络加速器,可在 GPU 服务器之间提供强大且无缝的连接
生成式人工智能是快速变化的数字领域的最新转折。使之成为可能的突破性创新之一是一个相对较新的术语:SuperNIC(超级网卡)
什么是超级网卡?
SuperNIC 是一种新型网络加速器,旨在增强基于以太网的云中的超大规模人工智能工作负载。它为 GPU 到 GPU 通信提供闪电般快速的网络连接,使用融合以太网 (RoCE) 技术上的远程直接内存访问 (RDMA) 实现高达 400Gb/s 的速度
SuperNIC 结合了以下独特的属性:
- 高速数据包重新排序,确保数据包按照最初传输的顺序接收和处理。这保持了数据流的顺序完整性
- 使用实时遥测数据和网络感知算法的高级拥塞控制来管理和防止人工智能网络中的拥塞
- 输入/输出 (I/O) 路径上的可编程计算,可实现 AI 云数据中心网络基础设施的定制和可扩展性
- 节能、薄型设计,可在有限的功耗预算内有效适应人工智能工作负载
- 全栈人工智能优化,包括计算、网络、存储、系统软件、通信库和应用框架
NVIDIA 最近推出了全球首款专为 AI 计算量身定制的 SuperNIC,基于BlueField-3 网络平台。它是 NVIDIA Spectrum-X 平台的一部分,与 Spectrum-4 以太网交换机系统无缝集成
NVIDIA BlueField-3 SuperNIC 和 Spectrum-4 交换机系统共同构成了专为优化 AI 工作负载而设计的加速计算结构的基础。Spectrum-X 始终如一地提供高网络效率水平,优于传统以太网环境
NVIDIA DPU 和 NIC 产品副总裁 Yael Shenhav 表示:“在人工智能推动下一波技术创新的世界中,BlueField-3 SuperNIC 是机器中的重要齿轮。” “SuperNIC 可确保高效、快速地执行您的 AI 工作负载,使其成为实现 AI 计算未来的基础组件"
人工智能和网络不断发展的格局
由于生成式人工智能和大型语言模型的出现,人工智能领域正在经历一场巨大的转变。这些强大的技术释放了新的可能性,使计算机能够处理新的任务。
AI 的成功在很大程度上依赖于 GPU 加速计算来处理大量数据、训练大型 AI 模型并实现实时推理。这种新的计算能力开启了新的可能性,但也对以太网云网络提出了挑战。
传统以太网是支撑互联网基础设施的技术,旨在提供广泛的兼容性并连接松散耦合的应用程序。它并不是为了满足现代人工智能工作负载的苛刻计算需求而设计的,现代人工智能工作负载涉及紧密耦合的并行处理、快速数据传输和独特的通信模式——所有这些都需要优化的网络连接。
基础网络接口卡 (NIC) 专为通用计算、通用数据传输 和互操作性而设计。它们的设计目的从来都不是为了应对人工智能工作负载的计算强度所带来的独特挑战。
标准 NIC 缺乏高效数据传输、低延迟和对 AI 任务至关重要的确定性性能所必需的特性和功能。另一方面,SuperNIC 是专为现代人工智能工作负载而构建的。
SuperNIC在AI计算环境中的优势
数据处理单元(DPU) 提供丰富的高级功能,提供高吞吐量、低延迟网络连接等。自 2020 年推出以来,DPU 在云计算领域广受欢迎,主要是因为它们具有卸载、加速和隔离数据中心基础设施处理的能力。
尽管 DPU 和 SuperNIC 具有一系列相同的特性和功能,但 SuperNIC 针对加速 AI 网络进行了独特的优化。下图显示了它们的比较
分布式人工智能训练和推理通信流的成功在很大程度上取决于网络带宽的可用性。SuperNIC 以其时尚的设计而著称,比 DPU 更有效地扩展,每个 GPU 提供令人印象深刻的 400Gb/s 网络带宽。
系统内 GPU 和 SuperNIC 之间的 1:1 比例可以显着提高 AI 工作负载效率,从而为企业带来更高的生产力和卓越的成果。
SuperNIC 的唯一目的是加速 AI 云计算的网络连接。因此,它使用比 DPU 更少的计算能力来实现这一目标,而 DPU 需要大量的计算资源来从主机 CPU 卸载应用程序。
计算要求的降低也意味着功耗的降低,这对于包含多达八个 SuperNIC 的系统尤其重要。
SuperNIC 的其他显着特征包括其专用的 AI 网络功能。当与 AI 优化的 NVIDIA Spectrum-4 交换机紧密集成时,它提供自适应路由、乱序数据包处理和优化的拥塞控制。这些先进功能有助于加速以太网 AI 云环境
彻底改变人工智能云计算
NVIDIA BlueField-3 SuperNIC 具有多项优势,使其成为 AI 就绪基础设施的关键:
- 峰值 AI 工作负载效率:BlueField-3 SuperNIC 专为网络密集型、大规模并行计算而设计,非常适合 AI 工作负载。它确保人工智能任务高效运行——没有瓶颈。
- 一致且可预测的性能:在同时处理大量任务的多租户数据中心中,BlueField-3 SuperNIC 可确保每个作业和租户的性能都是隔离的、可预测的且不受其他网络活动的影响。
- 安全的多租户云基础设施:安全是重中之重,尤其是在处理敏感信息的数据中心。BlueField-3 SuperNIC 保持高安全级别,使多个租户能够共存,同时保持数据和处理隔离。
- 可扩展的网络基础设施:BlueField-3 SuperNIC 的范围不受限制—它高度灵活,可适应无数其他网络基础设施需求。
- 广泛的服务器制造商支持:BlueField-3 SuperNIC 可以无缝地融入大多数企业级服务器,而不会导致数据中心出现过多的功耗。
如需了解有关 NVIDIA BlueField-3 SuperNIC 的更多信息,包括它们如何跨 NVIDIA 数据中心平台集成,请参阅白皮书:下一代 AI 浪潮的下一代网络。
类别:数据中心| 解说| 联网
标签:NVIDIA BlueField dpu super nic 超级网卡 数据处理单元 高性能网络
参考
什么是超级网卡?: https://blogs.nvidia.com/blog/what-is-a-supernic/
晓兵(ssbandjl)
博客: https://cloud.tencent.com/developer/user/5060293/articles | https://logread.cn | https://blog.csdn.net/ssbandjl | https://www.zhihu.com/people/ssbandjl/posts
DPU专栏
https://cloud.tencent.com/developer/column/101987