本文整理自NVIDIA 2024 GTC讲座
目录:
首先,什么是边缘计算?这是一个广泛的概念,但简单来说,它是在数据源头或靠近数据源头处理数据的方式。它有许多不同的好处或理念。大多数人寻求每秒处理毫秒级的数据,因为他们想要低延迟,同时也想要能够节省带宽。他们不需要将所有原始数据发送到顶层,每个人可能都熟悉云计算,因为这是我们每天工作的术语,云数据中心是全球部署的,平均响应时间,虽然到今天可以做到毫秒级,但绝对不是实时的。有时您实际上需要更多的处理时间,可以是分钟或有时候小时,最后一个是,您通常需要更大的带宽来进行处理,因为所有数据都需要被传输到数据中心的某个地方进行处理和发送回来。因此,这需要大量的资源。所以说。边缘计算具有本地处理、实现低延迟和减少带宽的好处。
利用边缘计算实现低延迟和减少带宽。正如您在这里看到的,这就是我总结的整体好处。但是随着人工智能在边缘的工作负载变得越来越重要。您必须将这两个方面结合起来并思考。对,今天有一个新术语叫边缘人工智能,这意味着您可以获得我刚刚提到的边缘计算的好处,同时结合实时的人工智能推理。这意味着您可以从数据中推断信息,例如摄像头输入。我们今天许多人都在使用摄像头,对吧?它可以是安全摄像头、缺陷检测摄像头、交通摄像头等,各种各样的摄像头。您可以直接从中获取深刻的信息,更不用说还有其他的数据形式,您可以有文本,您可以有图像,甚至您可以有所有的,还有大量正在进行中的事情。您基本上可以将任何数据源作为输入,并生成结果。。简而言之,利用边缘计算能够为您提供实时的可行见解,这实际上可以帮助您更好地了解情况,并作为企业做出更好的决策,最终这些技术应该不断发展,不断改进,以便您可以随着时间的推移变得更容易、更好。
在我们了解了边缘计算的好处之后,重要的是了解不同类型的边缘,因为在现实中,当您阅读文章或听人谈论时,他们可能在指称不同的术语。我希望确保这些术语与您非常清楚。
第一个称为提供者边缘,这些指的是互联网提供商和内容,吸引了一些边缘上的竞争,您从电信公司那里使用它进行内容传输,对吧。所以,当您消费一些内容时,那通常就是它。
第二件事是企业边缘,企业边缘是我们今天都非常熟悉的一个概念,因为它基本上是企业数据中心的扩展,位于企业现场。您可能在办公楼中拥有企业边缘,因为您希望在那里保护数据隐私,也可能在工厂车间中,因为您希望在工厂内处理数据。它也可能是一个非常小的零售店,比如7-11或者其他一些小店,因为您想要自动结账。您想要实时在本地对零售流量进行一些分析,因此通常被称为企业边缘。
然后是工业边缘。工业边缘是工业制造行业中很多人所使用的另一个术语,因为通常对于工业应用来说,需要更加专业化的环境和容忍度。例如,我们需要更广泛的温度范围、耐压性、耐振动性,因为您的设备部署在非常恶劣的环境中。这就是原因。所以通常当您看到人们谈论工业边缘时,他们通常指的是在工厂部署边缘计算系统。那就是您会看到的地方,有时甚至对于医疗行业,他们对产品的质量要求非常高。所以他们也会在医疗行业中使用。
最后但同样重要的是嵌入式边缘。什么是嵌入式边缘?基本上,嵌入式边缘是拥有嵌入式系统。它可以是机器人、机械设备、无人机,也可以是安装在交通拦截器上的系统,这些类型的设备使它们具有出色的计算能力,以便完成任务。因此,截至今日,许多这些顶级的物联网设备,您都可以将其视为嵌入式边缘。
我希望这些解释能够消除您对前沿媒体中听到的各种术语的疑惑,这也为我们奠定了基础,因为许多媒体解决方案技术都是建立在这些概念之上的,以帮助客户了解如何使用和利用我们的产品满足不同的边缘计算需求。
边缘计算有哪些不同的用例呢?也许你还没有意识到,边缘计算已经无处不在,覆盖各个行业。
如果你仔细想想,交通行业需要边缘计算,因为他们想要进行一些活动监控。他们想要做仓库的自动移动机器人。他们想要监控交通流量。这是很重要的,对吧?甚至工业和制造行业也大量使用边缘计算。
在硅制造中有很多缺陷检测和离散制造。更不用说还有机器臂在不同地点移动物品,边缘计算有很多用例。
智能零售今天离我们的日常生活很近,它们也大量使用边缘计算。你可能见过很多新设备,就在结账排队的地方,它们帮助进行自动结账。今天,这些仍然使用扫描系统,但有一次我去塔霍滑雪,我看到我可以把我的产品放在那里,扫描食物的图像,直接知道它是什么,然后结账,这是基于人工智能的自动结账。此外,对于零售商来说,不仅需要提供极致的客户体验,还需要了解他们的库存情况。因此,在零售店部署了机器人来检查货架,确保货架上有货。他们需要及时补充缺货,这对于库存管理也是很重要的。
此外,智能城市,你知道我们提到了交通和视频分析,还有医疗保健。你有内窥镜,有外科手术机器人,还有农业。你有拖拉机,比如合作伙伴 Monarch,他们有一辆巨大的拖拉机,它是由我们的技术驱动的电动、无人驾驶的自动机器人。
你可能会想知道我应该选择哪些带到我的组织中,以及我如何才能让它们在我的组织中成功。我将带领你进行一次探索之旅,看看有哪些不同的选择。
趋势是转向AI工作负载,因为人们越来越明白,如果我只把AI代理或模型放在云端,我就无法获得边缘计算的实时计算优势,也无法获得离线运行的好处,而且有一些关键的AI工作负载非常适合边缘计算。
第一个是智能视频分析。如果你回想十年前,当人们进行图像分类、检测模型时,他们都是使用云计算来进行处理,因为那时边缘的处理能力还不够好。所以大约在七到十年前,媒体发明了一种在边缘运行的产品,它的确可以高效地运行视频分析工作负载。代理部署了CNN和RNN模型来执行所有这些工作负载,这是很棒的。而今天,我们看到许多由它们驱动的新应用案例,就像我在这里提到的那样,它们无处不在。拥有它的好处是为您提供可行的见解,可以向您发送一个大的检测结果,发现问题,以便人类可以去那里修复它。
但这就够了吗?不,我们变得懒惰了。我们希望机器人为我们工作,对吧?所以你会看到趋势是向基于AI的机器人发展,因为这些机器人非常优秀。它们不仅提供见解,还提供行动。所以现在,大约三年前,我们看到越来越多的初创企业正在投资资金,探索如何使我的机器人手臂更加强大,以便根据感知模型和对环境的理解来拾取和放置物品。您看到环境,了解发生了什么事情,这对于协作应用非常重要,这意味着人机交互在同一环境中。您还会看到许多自动移动机器人帮助将物品从一个地方移动到另一个地方。今天我们看到亚马逊仓库已经完全配备了这些机器人,它们将到达每个物流仓库。您还会看到送货机器人。在疫情期间,有大量的初创公司涌入这个领域,因为我们需要送货。以前这可能有些困难。但想象一下初创公司正在研发机器人,它们可以到餐厅取餐,并把餐送到门口。
最近,大约一年前,人们对生成式视觉AI的概念感到惊讶。因为它利用过去的内容或历史数据生成新的内容。想象一下,您可以与AI代理交谈,从您所看到的视频中推断,并与您在数据源处总结所有信息。
市场正在恢复增长。到了2021年,我们有72亿美元的边缘服务器市场,我们正在朝着到2026年19.1亿美元的目标迈进。据估计,到2030年,我们将有80%的机器人能够与我们日常互动。到2035年,到处都将是一万亿智能设备。
因此,在未来,我们的下一代将会很惊讶,将会有实际的、不再基于智能的一切都将有一些AI动力超级帮助我们。然而,构建边缘解决方案并不容易,您不会看到部署在云端时遇到的传统挑战,因为存在各种各样的原因。
首先,不同环境的具体要求是首要考虑因素。它们还需要更小的占地面积和低功耗,因为许多边缘设备都是由电池供电的。
此外,您需要特定的边缘软件,因为边缘计算是一个不同的领域,通常您不希望有太多的重型工作负载。因此,您必须优化您的软件层,确保其有效运行。这是第二个挑战
第三,安全性。通常,设备被放置在公共空间,人们可以盗取它,并且对于网络安全非常脆弱,需要在这些设备上添加特殊的物理和网络安全措施。
第四是低延迟的要求。对于许多用例,特别是医疗用例,您希望具有极低的延迟,因为这对人类生命至关重要。您不希望您的外科手术机器人进入体内,而您获取的图像是一秒钟前的。那么你怎么进行同时手术?这是行不通的。因此,您在数据方面必须非常非常快速。
接下来我们也要谈及存储。您必须确保您的数据存储完整。有时候您想要在本地存储一些数据,因为涉及隐私问题,对吧?政府希望数据在本地存储,而且如果您把它存储在法庭录音或医院,您希望尊重人们的数据。您不希望这些数据上传到云端。
接下来是分布式计算。有一个概念叫做联合计算,您实际上可以将计算工作负载分布到您的边缘节点上,然后它们可以同时计算,或者您可以更好地重新分配资源,以便充分利用您的边缘集群。
执行也很重要,因为AI不是一天部署完毕后就不再使用。您必须随时间不断更新这个AI模型。有时候您需要重新训练它,以确保您可以应对新的任务。这就是为什么您需要拥有非常好的管理和编排方法。
最后但同样重要的是,正如我所说,您有很多移动的机器和机器人。您希望确保功能安全,因为人们将与它们一起工作。因此,功能安全至关重要。
众所周知NVIDIA因为GPU而出名,但今天的NVIDIA最终是一个平台公司。我们提供软件工具、框架和库,以确保客户能够充分利用我们的GPU并加速计算。这很重要,因为最终如果您没有软件支持模型,并确保您有正确的工作流程来部署和管理,那意味着您无法维护。对此,NVIDIA提供了一套软件,我们提供来自NVIDIA的商业支持,AI企业版。你们很多人可能听说过这个概念,从我们的边缘团队,从我们的云团队,但是同样的软件也在nvVIDIA认证系统的边缘上运行。它提供了应用框架的好处,帮助特定的工作负载。
NVIDIA有一系列工具,帮助运行非常好的特定工作负载,比如对于语言模型,我们有nemo,对于视觉AI,我们有metropolis。所有这些都可以直接用作一套工具,以确保您可以为特定的工作负载开发,并且我们有AI开发工具。基本上是帮助您进行数据准备、模型训练和定制化,然后通过T R T对其进行优化,最终我们可以使用推理服务器在边缘规模上部署。因此,工作流程非常重要,因为很多时候AI的软件开发周期与传统的软件开发相比是不同的。
最后但同样重要的是,您希望拥有基础设施的可管理性,这意味着您必须确保您可以监视您的GPU的性能,并且网络将资源分配给它。我们称之为认知原生管理。如果您在边缘服务器上构建一个集群,您需要管理您的集群,最终如果您想要在基础设施级别拥有所有的加速库,那么所有这些软件层运行在数据中心的都可以带到边缘。这就是NVIDIA端到端软件提供的美好之处。
我们的产品与大型设备相比略有不同,因为这些设备非常小。对于这些产品,您必须具有能效。此外,您在IO方面必须非常灵活,因为人们可能会将其连接到不同类型的摄像头,如USB、以太网、GSM等各种不同的设备。您必须具备这些灵活性。您希望能够确保人们可以根据自己的需求定制这些产品,以便将其转变为机器人、眼镜或任何形式因素。因此,这些需求必须满足。因此,NVIDIA提供了Jetson平台,专为嵌入式边缘应用设计,人们通常将其称为远端边缘,因为它非常小,非常靠近边缘,直接连接到摄像头,直接连接到音频输入或传感器等所有这些设备。我们在最新的Jetson平台上有三个产品系列。这些是AGX Orin,Orin NX 和Orin NANO,具有高达275TOPS的性能,这在边缘AI AML基准测试中领先,但您也可以选择价格更实惠的版本,这些版本也具有更为适度的AI计算性能。应用非常多样化。
Jetson平台是嵌入式系统,我们正在努力确保我们也可以利用我们在这里提供的许多企业软件。因此,它采用了相同的应用框架概念,用于视觉、人工智能、机器人技术和对话式人工智能,也遵循类似的开发人员工作流程,用于训练、微调、优化您的模型和部署。但是,边缘设备的特殊之处在于,您必须拥有不同的操作系统,因为它非常小。通常使用基于Linux的系统。我们使其成为云原生,使用docker,以便您可以将所有这些功能集成在一起,而JetPack DK是一个层,将Linux系统和AI计算一起打包,以便开发人员可以直接使用我们的技术。
现在,当我介绍我们的硬件和软件的基本概念以及边缘的不同类别时,我想深入探讨一个非常重要的概念,即应用框架。首先,为什么这很重要?它可以节省您的时间和金钱。第二,您可以节省总拥有成本,因为这些工作流程,因为您无需担心将来更新和管理它。这为我们的客户增加了价值。我将为您进行三个深入的应用框架介绍。正如我所说,趋势是朝着人工智能、机器人技术,我可以讨论每个应用框架的应用。让我们从Metropolis开始。
这里看到的是一个非常典型的端到端工作流程,用于部署视觉和模型,它始于数据的生成。当然,过去,许多组织选择使用标记数据来训练模型,但这太昂贵了,而且很多时候你得不到好的数据来源,因为你在现实生活中根本找不到。你怎么可能找到一张车撞鹿的照片?你能做到吗?我是说今天你可以生成。在模拟环境中就容易得多了。
对于那些边缘案例,你可以构建环境,合成生成那些数据。这些数据会自动标记和分割。所以我们准备好了。你把这些数据传送到第二步,即训练阶段,在那里你有NVIDIA预训练的AI模型,就像他们是高中生或大学生一样。如果你考虑他们在现实生活中做事情的技能水平,但现在你把这些基础知识结合起来,他们已经有了一些技能,可以很快地帮助我们完成你想要的任务。所以预训练模型有时候我们看到这个迁移学习模型,这些东西可以帮助你很快从零到英雄。
然后你结合这两件事,预训练模型和一些新数据放入一个称为Triton的框架中来帮助。你可以对模型进行微调、剪枝和压缩,并确保它适合任何边缘设备。
在完成训练阶段后,你进入第三个阶段,即构建,这意味着除了模型本身之外,你还需要其他组件来为你的应用程序提供支持。你要处理摄像头吗?是的。好的,你必须弄清楚如何配置摄像头进行视频存储。我们为您提供了两个。你需要进行感知和修正吗?我们有一个从头到尾的加速器,我们为您提供了DeepStream AI应用程序。
最后,如果你正在构建一个现代化的微服务应用程序。我们有不同的微服务,你可以直接使用它,最终当你部署它时,你需要确保它在各种不同的设备上能够兼容。我们实际上有一个云管理工具,最终你希望这些边缘设备能够与云端进行通信。你实际上有一个网关来完成这个任务。所以所有这些都被集成到这个端到端的应用框架中,称为Triton,它可以帮助您加快时间,使其变得容易。
对于机器人开发人员来说,具有NVIDIA GPU加速的ROS包是一个好消息,因为现在你可以在你的机器人节点上获得最佳的NVIDIA GPU性能。最后但同样重要的是,我们还有部署和管理所有这些内容的工具,用于路线规划和地图制作。
对于机器人来说,另一件非常重要的事情是功能安全性。我想你不想被机器人伤害。重要的是你必须在周围建立安全技术,以确保所有机器人在人类周围能够表现良好。还有技术问题。我们安全技术的四个支柱中的第一个是我们所谓的安全基础。这些是安全扩展包,用于实现安全诊断和安全通信,因此它可以实际检测到系统中的任何故障。
第二个支柱是我们所称的内外安全,即使用基于摄像头的感知来理解环境,以便在人们看到时可以安全地避开人类或避开任何物体。
第三个支柱也很重要,称为外部安全。这可能不是你经常听到的术语,但它非常重要,因为如果你认为你的机器人设计了一些眼睛或在前面看到的东西,那后面呢?对于他们看不到的东西和随意移动的东西,你必须在某个地方外面放置一个摄像头,发送那些信息,说,嘿,停下来,有人就在附近。你没看到,但我看到了,这就是外部安全。
你把那些摄像头放在外面发送信息给机器人,这将防止信息发生危险。
最后但同样重要的是仿真预测安全,你可以使用仿真环境来训练你的机器人应对角落。所以所有这些安全性都是关键的概念。
我们有很多构建模块,从数据整理到自定义模型,再到评估模型性能。我们有评估器、检索器用于增强现实工作流程,即检索增强生成。此外,我们还有Guardrail和微服务,您可以直接使用和部署,这将使其变得简单。我们与各大云服务提供商合作,确保这些工作流程得到优化并可以在任何地方部署。
这也是我们为嵌入式系统设计的一部分,因为嵌入式系统最终会面临一些不同的挑战,正如我之前提到的。为了更快地构建AI生成模型,我们采取了模块化方法,其中包括许多云原生API微服务,这些微服务完全容器化,可以插拔并一起使用。您可以采用即插即用的方法,从Nvidia的Jetson lab中找到优化的模型,例如Llama模型等,所有这些模型都可以在小型边缘设备和嵌入式设备中使用。
在此之上,我想快速总结一下今天你学到了什么。有硬件层面。在底层有EGX、ITX、AX,而在顶层则是软件。在软件方面,我谈到了可管理性、管理和编排的重要性,我们有很多合作伙伴来设计不同的技术,使其成为云原生,而且我们的软件工具包括了Nvidia AI开发工作流程和基础设施管理,以及不同的应用框架来加速您的上市时间。最终,还有一些是Nvidia认证的系统,您可以直接利用Nvidia的定价,确保产品的长期使用、软件支持和获取终身价值。