下一代人工智能/机器学习计算的内存挑战

随着 AI/ML 的性能要求持续快速增长,内存的重要性也在不断增长。

事实上,当涉及到人工智能的内存时,会有很多对于内存的新需求,特别是:

  • 更大的容量 – 模型尺寸巨大且增长迅速,可能达到数十个TB。这种规模的数据需要越来越多的 DDR 主存容量。
  • 更多带宽 – 随着需要移动大量数据,我们目睹了所有 DRAM 类型继续竞相提高数据速率以提供更多内存带宽。
  • 更低的延迟 – 对速度的需求的另一个方面是更低的延迟,以使得处理器内核不会为了等待数据而闲置。
  • 更低的功耗 – 我们正在挑战物理学的极限,而功耗已成为人工智能系统中的一个重要限制因素。对更高数据速率的需求也正在推高功耗。为了缓解这种情况,IO电压正在降低,但这降低了电压裕量并增加了出错的机会,这使我们也需要更高的可靠性。
  • 更高的可靠性 – 为了解决在更高速度、更低电压和更小的工艺下不断增加的错误率,我们看到越来越多地使用片上 ECC 和先进的信号技术进行补偿。

另一个重要话题是人工智能中新内存技术的挑战和机遇。新技术具有许多潜在优势,包括:

  • 针对一组重点用例优化容量、带宽、延迟和功耗。人工智能是一个庞大而重要的市场,背后有大量的资金,这是一个伟大的组合,可以推动新内存技术的发展。过去,GDDR(为图形市场开发)、LPDDR(为移动市场开发)和 HBM(为 AI 等高带宽应用开发)是为了满足现有内存无法满足的用例的需求而创建的。
  • CXL– CXL 提供了大幅扩展内存容量和提高带宽的机会,同时还从处理器中抽象出内存类型。通过这种方式,CXL 为整合新的内存技术提供了一个很好的接口。CXL 内存控制器提供处理器和内存之间的转换层,允许在本地连接的内存之后插入新的内存层。

虽然针对特定用例的新内存类型对许多应用程序都有好处,但它们面临着额外的挑战:

  • 在可预见的未来,DRAM、片上SRAM和闪存将继续存在,所以不要指望任何东西可以完全取代这些技术。每年对这些技术的研发和资本支出投资,加上数十年的高产制造经验,使得在短期内基本上不可能取代任何这些技术。任何新的内存技术都必须与这些内存很好地协同工作才能被采用。
  • 人工智能部署的规模和与开发新内存技术相关的风险使得采用全新的内存变得困难。内存开发的时间表通常为 2-3 年,但 AI 的发展速度如此之快,以至于很难预测未来可能需要的特定功能。风险很高,依赖新技术被启用和可用的风险也很高。
  • 任何新技术的性能优势都必须足够高,以抵消任何额外的成本和风险。考虑到对基础架构工程和部署团队的需求,这意味着新的内存技术需要克服一个非常高的障碍。

内存将继续成为未来人工智能系统的关键推动因素。我们的行业必须继续为未来的系统进行创新,以提供更快、更有意义的人工智能,而行业正在做出回应。