人工智能体 Agent 将是 AI 最终方向！

比尔·盖茨于11 月 9 日在其个人网站撰文《AI is about to completely change how you use computers》，阐述了人工智能体（Agent）在未来几年如何颠覆软件行业。

以下是全文译文，Enjoy

保罗·艾伦和我一起创立微软的至今，我对软件的热爱至今依然不减。

然而，尽管在过去的几十年中软件已经取得了很大进步，但在很多方面，软件还是显得相当“笨拙”。

在电脑上执行任何任务，你都需要指定要使用的应用程序。虽然你可以使用微软 Word 或谷歌文档来撰写商业提案，但这些工具无法帮助你发送电子邮件、分享自拍、分析数据、安排聚会或购买电影票。即便是最优秀的网站，也仅能片面理解你的工作、个人生活、兴趣和人际关系，并且在利用这些信息为你服务方面能力有限。目前，这种工作通常只能由人类完成，例如你的密友或个人助理。

但在未来五年，这一切将彻底改变。你不再需要为不同的任务切换不同的应用程序。你只需用平常的语言告诉你的设备你想做什么，因为它对你的生活有了深入的了解，软件将能够根据你愿意分享的信息量，做出个性化的响应。

在不久的将来，任何一个上网的人都能够拥有一个由先进人工智能驱动的个人助理。

这类软件，能够理解自然语言并根据对用户的了解完成多种任务，被称为“Agent”。我对 Agent 的思考已近 30 年，在 1995 年出版的《未来之路》一书中我曾提到过它们，但直到最近，因为人工智能的进步，它们才真正变得实用。

Agent 不仅将改变人们与计算机的互动方式，还将颠覆软件行业，引发自从我们从键入命令到点击图标以来计算机领域的最大革命。

每个人的个人助理

有批评家指出，软件公司以前也提供过类似的服务，但用户并没有完全接受。（人们至今仍然会拿 Clippy 这个我们曾经在微软 Office 中加入后来又放弃的数字助理开玩笑）那么，为什么人们会使用 Agent 呢？

答案是，Agent 将大幅改进。你将能够与它们进行更为细腻的对话。它们将变得更加个性化，并不仅仅局限于诸如写信等相对简单的任务。Clippy 与 Agent 之间的差异，就像老式电话与智能手机之间的差异一样大。

Agent 将能够在你愿意的情况下协助你完成所有活动。一旦获得权限，Agent 可以跟踪你的在线互动和实际位置，从而深入了解与你相关的人、地点和活动。它将掌握你的个人和工作关系、兴趣爱好、偏好和日程。你可以选择何时何地让它介入协助你做决定或帮助完成某项任务。

要了解 Agent 将带来的巨大变化，我们可以将它们与今天的 AI 工具进行对比。这些工具大多是机器人，限制在单个应用程序中，通常只在你特定提出需求时才会介入。由于它们无法记住你每次的使用习惯，因此无法学习并适应你的偏好。

“Clippy 就是一个机器人，而不是Agent。”

Agent 则更加智能。它们能够主动提出建议，而不仅仅是在你提出请求时才反应。它们能够跨应用完成任务，并且随着时间的推移不断进步，因为它们能记住你的活动并识别你行为中的意图和模式。基于这些信息，它们会主动提供它们认为你需要的东西，尽管最终决定权始终掌握在你手中。

想象一下，你想规划一次旅行。一个旅行机器人可能只能帮你找到符合预算的酒店。而 Agent 则知道你将在哪个季节出行，并且根据它对你是否总是尝试新目的地或喜欢重复访问同一地点的了解，为你提出目的地建议。在被询问时，它还会根据你的兴趣和冒险倾向推荐活动，并为你预订你喜爱的餐厅。如果你今天想要这种深度个性化的规划，你需要支付旅行社费用并花时间告诉他们你的需求。

AI Agent 最令人兴奋的影响，在于它们将让今天对大多数人来说过于昂贵的服务变得普及。它们将在医疗、教育、生产力以及娱乐和购物等四个领域产生巨大的影响。

医疗保健

在当今医疗保健领域，人工智能主要是协助处理行政类任务。例如，Abridge、Nuance DAX 和 Nabla Copilot 等系统可以在医生诊断时记录音频，并整理成笔记供医生审核。

真正的变革将在 Agent 能够协助患者进行初步分诊、提供处理健康问题的建议，以及判断是否需要就医时到来。这些 Agent 还将助力医疗工作者做出更明智的决策，提升其工作效率（例如，像 Glass Health 这样的应用能够分析患者病情摘要，并为医生提出可能的诊断建议）。对病人和医疗工作者的帮助，对于贫穷国家的人们尤为重要，因为在那里很多人根本无法看到医生。

这些临床 Agent 的推广速度会慢于其他类型，因为准确无误是关乎生死的大事。人们需要确信，尽管这些健康 Agent 不完美且可能犯错，但总体上是有益的。当然，人类也会犯错，无法获得医疗服务也是一个问题。

心理健康护理是另一个 Agent 将普及至几乎所有人的服务领域。如今，每周进行一次心理治疗似乎是一种奢侈。还有很多需求没有得到满足，很多可以从治疗中受益的人却没有机会接受治疗。例如，兰德公司（RAND）研究发现，美国有一半需要心理健康护理的退伍军人并未得到治疗。

在心理健康方面训练有素的 AI Agent 将使治疗更加经济实惠，也使人们更容易获得治疗。Wysa 和 Youper 是这一领域的两个早期聊天机器人示例。但 Agent 的作用将更加深入。如果你愿意与心理健康 Agent 分享充分的信息，它将能够理解你的生活历史和人际关系，它会在你需要时随时待命，永远不会感到不耐烦。有了你的允许，它甚至可以通过智能手表监测你在治疗过程中的生理反应——比如当你谈论与老板的问题时心跳加速——并建议你何时应该寻求人类心理治疗师的帮助。

教育

几十年来，我一直对软件如何简化教师工作和帮助学生学习充满期待。它不会取代教师，而是将对他们的工作进行补充——为学生个性化定制工作，解放教师免受文书工作和其他任务的困扰，使他们能够花更多时间在工作的最重要部分。这些变化终于以一种戏剧性的方式开始发生。

目前的先进技术是可汗学院开发的基于文本的机器人 Khanmigo。它能够在数学、科学和人文学科中为学生提供辅导——例如，解释二次方程式并创建数学习题供练习。它还能帮助教师进行课程规划等工作。我长期以来一直是 Sal Khan 的工作的支持者，并最近在我的播客中邀请他讨论教育和 AI。

但基于文本的机器人只是第一步——Agent 将开启更多的学习机会。例如，很少有家庭能负担得起一对一课后辅导，作为课堂教学的补充。如果 Agent 能够有效模仿家教的特点，它们将为所有需要的人提供补充教学。如果一个辅导 Agent 知道一个孩子喜欢《我的世界》（Minecraft）和泰勒·斯威夫特（Taylor Swift），它将利用《我的世界》来教授体积和面积的计算，并通过泰勒的歌词教授有关叙事和押韵结构的技巧。与今天的基于文本的辅导相比，这种体验将更加丰富——例如，结合图形和声音——并且更加个性化。图片

生产力

在这个领域，竞争已经非常激烈。微软正在将其 Copilot 功能集成到 Word、Excel、Outlook 等服务中。谷歌也在通过助理、Bard 及其生产力工具做着类似的事情。这些智能助手能完成许多任务，比如将文字文档转换成幻灯片，用自然语言回答电子表格相关问题，以及在体现每个人观点的同时总结电子邮件讨论。

Agent 的能力将更为强大。拥有一个 Agent 就像有一个专门协助你处理各种任务并在你需要时独立完成任务的人。例如，如果你有一个商业想法，Agent 可以帮你撰写商业计划，制作演示文稿，甚至生成你心目中产品可能的外观图像。公司可以为员工提供 Agent 服务，让 Agent 直接参与每次会议，回答问题。

无论你是否在办公室工作，你的 Agent 都能像现今的个人助理一样为你提供帮助。如果你的朋友最近接受了手术，你的 Agent 会主动建议送花，并能帮你完成订购。如果你想和大学室友重聚，它会与对方的 Agent 协作安排见面时间，并在你抵达前提醒你，他们的大孩子刚刚开始在当地大学上学。

娱乐和购物

如今，人工智能已能帮助你挑选新电视，推荐电影、书籍、节目和播客。同样，我投资的一家公司最近推出了 Pix，它允许你提出问题（例如，“我会喜欢哪些罗伯特·雷德福的电影？我在哪里可以看？”），然后根据你过去的喜好做出推荐。Spotify 的 AI 驱动 DJ 不仅根据你的偏好播放歌曲，还会与你交流，甚至能称呼你的名字。

Agent 不仅仅会提出推荐，它们还会帮助你实现这些推荐。如果你想买相机，你可以让 Agent 为你阅读所有评测，总结它们，给出建议，并在你做出决定后帮你下单。如果你告诉 Agent 你想看《星球大战》，它会知道你是否已订阅了相应的流媒体服务，如果没有，它会提出帮你注册。如果你不确定想看什么，它会提供定制化的建议，然后帮你播放所选的电影或节目。你还可以获得根据你的兴趣定制的新闻和娱乐内容。CurioAI 就是这一趋势的例子，它能根据你提出的任何主题创建定制播客。

技术行业的巨变

总之，Agent 将能够帮助处理几乎所有活动和生活各个领域的事务。这对软件业和整个社会都将产生深远的影响。

在计算行业中，我们讨论的是平台——应用程序和服务构建的基础技术。Android、iOS 和 Windows 都是平台的例子。Agent 将成为下一个平台。

要创建一个新的应用或服务，你不需要掌握编程或图形设计技能。你只需告诉你的 Agent 你的需求。它将能够编写代码，设计应用的外观和感觉，创建一个 logo，并将应用发布到在线商店。OpenAI 本周推出的 GPTs 展示了一个未来预览，即非开发人员也能轻松创建和分享他们自己的助手。

Agent 将影响我们使用软件的方式以及软件的编写方式。它们将取代搜索网站，因为它们在为你查找和总结信息方面会更加高效。它们将取代许多电子商务网站，因为它们能为你找到最佳价格，并且不受限于少数几个供应商。它们将取代文字处理软件、电子表格以及其他生产力应用。今天的独立业务——搜索广告、带广告的社交网络、购物、生产力软件——将合并成为一个业务。

我认为不会有任何单一公司主导 Agent 业务——将有许多不同的 AI 引擎可供选择。如今，Agent 被嵌入到其他软件中，如文字处理软件和电子表格，但最终它们将独立运作。虽然一些 Agent 将免费使用（并通过广告支持），但我认为你将需要为大多数 Agent 付费，这意味着公司将有动力让 Agent 代表你的利益，而不是广告商的利益。今年开始研究 AI 的公司数量表明，将会有异常激烈的竞争，这将使 Agent 的价格非常亲民。

但在我所描述的高级 Agent 成为现实之前，我们需要面对关于技术及其使用方式的诸多问题。我之前已经写过 AI 引发的问题，所以在本文我将聚焦于 Agent。

技术挑战

目前还没有人弄清楚 Agent 的数据结构应该是怎样的。为了创建个人 Agent，我们需要一种新型数据库，它能够精确捕捉你的兴趣和关系的细微差别，并在保护隐私的同时快速提取这些信息。我们已经开始看到一些新的信息存储方式，比如向量数据库，这可能更适合存储由机器学习模型生成的数据。

还有一个未解之谜是，人们将与多少个 Agent 互动。你的个人 Agent 是否会与你的心理治疗 Agent 和数学辅导 Agent 分开？如果是这样，那么在什么情况下你希望它们相互合作，而什么时候应该保持各自的独立？

你将如何与你的 Agent 互动？目前公司正在探索包括应用程序、眼镜、吊坠、别针，甚至全息图在内的各种选项。这些都是可能的方式，但我认为人类与 Agent 互动的首个重大突破将是耳机。如果你的 Agent 需要与你联系，它会通过耳机对你说话，或在你的手机上显示信息。（“你的航班延误了。你想等待，还是需要我帮你重新预订？”）如果你愿意，它还可以监控进入你耳朵的声音，并通过消除背景噪音、增强难以听清的语音或使带有重口音的话更容易理解，以便提升听觉体验。

还有其他的挑战。目前还没有一个标准的协议允许 Agent 之间相互通信。Agent 的成本需要降低，使每个人都负担得起。激活 Agent 以获得正确答案的过程需要更加简单。我们需要防止在诸如健康这样的领域中出现幻觉，因为在这些领域中准确性至关重要，同时确保 Agent 不会因为偏见而对人类造成伤害。我们不希望 Agent 做出它们不应该做的事情。（尽管我对恶意 Agent 的担忧少于对人类犯罪分子利用 Agent 进行恶意活动的担忧。）

隐私和其他重大议题

随着这些技术的融合，线上隐私和安全问题将比现在更加迫切。你会希望能够决定 Agent 可以访问哪些信息，以确信你的数据只被你选择的人和公司所共享。

但你与 Agent 分享的数据归谁所有，如何确保它被适当使用呢？没有人希望因为他们告诉心理治疗 Agent 的事情而开始收到相关广告。执法部门可以使用你的 Agent 作为对你不利的证据吗？你的 Agent 什么时候会拒绝做可能对你或他人有害的事情？谁来确定 Agent 内嵌的价值观？

还有一个问题是 Agent 应该分享多少信息。假设你想见一个朋友：如果你的 Agent 与他们的 Agent 交流，你不希望它说，“哦，她周二要见其他朋友，并不打算让你参加。”如果你的Agent帮你写工作邮件，它需要知道不应使用你的个人信息或前任工作的专有数据。

许多这类问题已经是科技行业和立法者的关注重点。我最近参加了由参议员查克·舒默（Sen. Chuck Schumer）组织的一场 AI 论坛，其他技术领袖也参加了这次论坛，许多美国参议员出席。我们分享了关于这些和其他问题的想法，并讨论了立法者采取强有力立法的必要性。

但其他问题不会由公司和政府决定。例如，Agent 可能会改变我们与朋友和家人的互动方式。今天，你可以通过记住他们生活中的细节——比如他们的生日——来表明你关心他们。但当他们知道很可能是你的 Agent 提醒你这件事并负责送花时，这对他们来说还有意义吗？

在遥远的未来，Agent 甚至可能迫使人类面对关于“目的”的深刻问题。想象一下，Agent 变得如此优秀，以至于每个人都可以在几乎不用工作的情况下享有高质量的生活。在这样的未来，人们将如何利用他们的时间？当 Agent 拥有所有答案时，还会有人想要接受教育吗？在大多数人有大量空闲时间的情况下，能否维持一个安全繁荣的社会？

但我们离这一点还很远。

与此同时，Agent 正悄然到来。

在未来几年里，它们将彻底改变我们的生活方式，无论是在线上还是线下。

版权属于原作者，仅用于学术分享