四年、投入20%计算资源，OpenAI成立专门团队构建解决对齐问题的超强AI

机器之心报道

编辑：小舟、梓文

OpenAI：人类管不了未来的 AI，我们要构建一个监督模型对齐的新 AI。

随着 ChatGPT、GPT-4、LLaMA 等生成式大模型的爆火，生成式 AI 技术成为一个值得关注和思考的重要话题。一方面，生成式 AI 能够大幅提升生产效率；另一方面，人们也看到了生成式 AI 技术背后隐藏的风险。

今年上半年，机器学习领域的专家、学者已经多次联合发表公开信，呼吁人们重视生成式 AI 的潜在风险，并限制构建生成式 AI 大模型。其中，图灵奖得主 Geoffrey Hinton 更是在 4 月从谷歌离职，警告人们生成式 AI 将「对人类构成威胁」。

OpenAI 作为 ChatGPT、GPT-4 等大模型背后的公司，无疑被推上了风口浪尖。

现在，OpenAI 开始自救，正式宣布成立一个新的研究团队 ——Superalignment 团队，由 OpenAI 联合创始人 Ilya Sutskever 和 Jan Leike 共同领导。值得注意的是，这个团队的主要任务是构建一个与人类水平相当的、负责模型对齐的「AI 研究员」。也就是说，OpenAI 要用 AI 来监督 AI。

OpenAI CEO Sam Altman 和 OpenAI 联合‍创始人 Ilya Sutskever。

四年投入 20% 算力

OpenAI 认为，人工智能技术正在飞速发展，影响全人类的超级智能（Superintelligence）看似遥远，但极有可能在十年内到来。

超级智能将是一把双刃剑，它可以帮助人类解决世界上许多重要问题，但它也可能导致人类丧失权力，威胁人类安全。

治理这些风险需要建立新的治理机构，并解决 AI 模型的对齐问题。一个显著的问题是：超级智能可能比人类更聪明，如何能让如此强大的 AI 系统遵循人类的意愿？

当前，将模型输出和人类偏好进行对齐最先进的方案是 RLHF，即以强化学习的方式依据人类反馈优化语言模型，本质上讲这种方法仍然依赖于人类监督 AI 的能力，将不适用于超级智能。

因此，OpenAI 宣布投入 20% 的计算资源，花费 4 年的时间全力打造一个解决超级智能对齐问题的超级对齐（Superalignment）系统。

为了构建超级对齐系统，开发团队需要做的工作如下：

1）开发一个可扩展的训练方法：

利用人工智能系统来协助评估其他人工智能系统，并将 AI 模型的监督能力泛化到人类无法监督的任务上。

2）验证系统：

为了验证系统的一致性，开发过程中会自动搜索有问题的行为（稳健性）和有问题的内部结构（可解释性）。

3）对整个对齐管道进行压力测试：

最后，使用未对齐的模型来测试整个流程，确保所提方法可以检测到最严重的未对齐类型（对抗性测试）。

团队信息

前文介绍过，Superalignment 团队由 OpenAI 联合创始人 Ilya Sutskever 和 Jan Leike 共同领导。从 OpenAI 今天推特公布的信息来看目前也已有多位成员。

Ilya Sutskever 大名想必大家都已经听过。

Sutskever 在多伦多大学获得了计算机科学学士、硕士和博士学位，导师是 Geoffrey Hinton。博士毕业后进入斯坦福大学，成为吴恩达的博士后。后担任 DNNresearch 的联合创始人。2013 年，Ilya Sutskever 与 Hinton 一起加入谷歌大脑团队。他后来离开谷歌加入 OpenAI，成为了联合创始人和首席科学家。

团队另一负责人 Jan Leike，2016 年博士毕业，后加入谷歌做人类反馈强化学习（RLHF）相关研究，2021 年加入 OpenAI 做对齐研究。