这是 Karpathy 在 CCVPR2021 上的演讲。https://www.youtube.com/watch?v=eOL_rCK59ZI
特斯拉已经宣布了世界上第五个最强大的新型超级计算机。它将成为特斯拉下一款新型 Dojo 超级计算机的前身。
它用于训练特斯拉的自动驾驶仪和神经网络,为未来的自动驾驶人工智能提供动力。
过去几年,特斯拉显然专注于车内和车外的计算能力。
在内部,您需要一台功能强大的计算机来运行自动驾驶软件,而在外部,则需要一台超级计算机,它可以通过神经网络训练自动驾驶软件,该神经网络可以提供大量来自车队的数据。您需要一台计算机。
- 8 个 A100 80GB 720 节点。(总共 5760 个 GPU)
- 1.8 EFLOPS(720 节点 * 312 TFLOPS-FP16-A100 * 8 gpu/节点)
- 10PB“热层”NVME 存储@1.6 TBps
- 总交换容量 640Tbps
我们有一个神经网络架构网络,我们有一个需要大量计算的 1.5 PB 数据集。所以我们正在建造和使用的这台疯狂的超级计算机。对我们来说,计算机视觉是我们所做工作的基础,也是实现自动驾驶的基础,要让它真正发挥作用,我们需要来自车队的数据。您必须掌握它,训练一个大型神经网络并进行大量实验,因此您在计算上投入了大量资金。在本例中,您有一个在 80GB 版本的 8xA100 中构建有 720 个节点的集群。所以它是一个巨大的超级计算机。