走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理有人在社交媒体上发布了一张有关 GPT4.5 更新的截图。图中内容显示,和 GPT 系列之前推出的模型...

贴文 2个月前
1.1K 0

走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理

有人在社交媒体上发布了一张有关 GPT4.5 更新的截图。图中内容显示,和 GPT 系列之前推出的模型相比,GPT4.5 最大的惊喜可能就是处理 3D 和视频的能力。至于 3D 能力到底是指看得懂 3D 图像,还是能输入 3D 模型,目前只能靠猜。OpenAI CEO Sam Altman 随后否认了该截图的真实性,GPT4.5 的具体能力依然是一个谜。不过,在众多研究中,确实已经有大模型实现了多个模态同时处理,甚至连视频、3D 模型也囊括了进来。

给你一首曲子的音频和一件乐器的 3D 模型,然后问你这件乐器能否演奏出这首曲子。你可以通过听觉来辨认这首曲子的音色,看它是钢琴曲还是小提琴曲又或是来自吉他;同时用视觉识别那是件什么乐器。然后你就能得到问题的答案。但语言模型有能力办到这一点吗?

实际上,这个任务所需的能力名为跨模态推理,也是当今多模态大模型研究热潮中一个重要的研究主题。近日,宾夕法尼亚大学、Salesforce 研究院和斯坦福大学的一个研究团队给出了一个解决方案 X-InstructBLIP,能以较低的成本让语言模型掌握跨模态推理。

人类天生就会利用多种感官来解读周围环境并和制定决策。通过让人工智能体具备跨模态推理能力,我们可以促进系统的开发,让其能更全面地理解环境,从而能应对仅有单个模态导致难以辨别模式和执行推理的情况。这就催生了多模态语言模型(MLM),其可将大型语言模型(LLM)的出色能力迁移到静态视觉领域。 网页链接

暂无评论

暂无评论...