ChatGPT架构师:语言大模型的多模态能力、幻觉与研究经验9月26日,OpenAI宣布ChatGPT新增了图片识别和语音能力,使得ChatGPT不仅可以进行文字交流,还可以给它展...
ChatGPT架构师:语言大模型的多模态能力、幻觉与研究经验
9月26日,OpenAI宣布ChatGPT新增了图片识别和语音能力,使得ChatGPT不仅可以进行文字交流,还可以给它展示图片并进行互动,这是一次ChatGPT向多模态进化的重大升级。
OpenAI联合创始人,ChatGPT架构师John Schulman此前认为,添加多模态功能会给大模型带来极大的性能提升。“如果扩展出现边际收益递减,那么添加多模态就能让模型获得文本中无法获得的知识,并有可能掌握纯语言模型无法完成的任务。例如,通过观看与物理世界甚至是与电脑屏幕互动的视频,模型能获得巨大收益。”
在负责ChatGPT之前,Schulman是深度强化学习的早期先驱之一,他发明了广泛应用的近端策略优化算法(PPO),这实际上也是ChatGPT训练的一部分。他还发明了信任区域策略优化(TRPO),对OpenAI Gym、OpenAI Benchmark以及现代深度学习时代的许多元学习算法作出了重要贡献。
在创立OpenAI之前,加入OpenAI之前,Schulman在加州大学伯克利分校攻读博士学位,一开始主要研究机器人技术,随着深度学习兴起,转而研究强化学习,其导师正是强化学习领域的领军人物Pieter Abbeel。
近期,John Schulman与Pieter Abbeel就ChatGPT的构建过程及方法、能力、局限等模型细节展开了详细探讨,并展望了语言大模型向多模态模型进化的发展方向。此外,Schulman还分享了自己一路走来的研究历程与经验网页链接
版权声明: 发表于 2023-10-03 10:12:24。
转载请注明:ChatGPT架构师:语言大模型的多模态能力、幻觉与研究经验9月26日,OpenAI宣布ChatGPT新增了图片识别和语音能力,使得ChatGPT不仅可以进行文字交流,还可以给它展... | AI 時.空 | AiTime.Space
转载请注明:ChatGPT架构师:语言大模型的多模态能力、幻觉与研究经验9月26日,OpenAI宣布ChatGPT新增了图片识别和语音能力,使得ChatGPT不仅可以进行文字交流,还可以给它展... | AI 時.空 | AiTime.Space
暂无评论...