OpenAI破解对齐难题?超级对齐负责人Jan Leike采访实录:「可扩展监督」是良策今年早些时候,OpenAI宣布成立了一支专注于超级对齐的新团队,由Jan Leike和IIya S...

贴文 2个月前
1.2K 0

OpenAI破解对齐难题?超级对齐负责人Jan Leike采访实录:「可扩展监督」是良策

今年早些时候,OpenAI宣布成立了一支专注于超级对齐的新团队,由Jan Leike和IIya Sutskever领导,超级对齐旨在构建一个能够与人类水平相媲美的自动对齐研究器。其目标是尽可能地将与对齐相关的工作交由自动系统完成。其中一个重要手段就是可扩展监督(Scalable Oversight),即在确保模型能力超过人类水平后,仍旧能够与人类期望保持一致、持续地进行改进和学习。可扩展监督的重点是如何向模型持续提供可靠的监督,这种监督可以通过标签、奖励信号或批评等各种形式呈现。随着AI不断进步,RLHF可能会逐渐失效,人类评估模型的能力遭遇瓶颈。如何判断可扩展监督正在发挥作用?可扩展监督的目标是什么?

Jan Leike是OpenAI超级对齐团队负责人,研究方向为强化学习,大语言模型的对齐engineering,通用人工智能等。2016年加入谷歌 DeepMind 团队从事人类反馈强化学习(RLHF)相关研究,现领导OpenAI对齐团队,旨在设计高性能、可扩展、通用的、符合人类意图的机器学习算法,使用人类反馈训练人工智能,训练人工智能系统协助人类评估,训练人工智能系统进行对齐研究。

分享实录

关于对齐问题,我已经思考10年之久。

在OpenAI,我与Ilya Sutskever共同领导了超级对齐团队,并深度参与了一些项目,包括RLHF原始论文、InstructGPT、ChatGPT和GPT-4的对齐项目。

目前超级对齐的目标是弄清楚如何对齐超级智能,因此系统必须比人类更聪明。我们希望在四年内,利用OpenAI 20%的算力解决超级对齐的问题。网页链接

暂无评论

暂无评论...