多模态大模型(LMMs)的曙光:初探 GPT-4V(ision)多模态大模型(LMMs)不仅拥有大型语言模型(LLMs)的特点,还拓宽了其多感官技能,例如视觉理解,从而实现了更...
多模态大模型(LMMs)的曙光:初探 GPT-4V(ision)
多模态大模型(LMMs)不仅拥有大型语言模型(LLMs)的特点,还拓宽了其多感官技能,例如视觉理解,从而实现了更强的通用智能。本文深入探索并分析了最新的 GPT-4V(ision) 模型,旨在加深我们对 LMMs 的认识。我们的分析重点是 GPT-4V 能够完成的各种有趣任务,通过一系列精心设计的测试样本,来检验 GPT-4V 能力的质量和通用性,以及它所支持的输入和工作方式,还有有效启动模型的方法。在探索 GPT-4V 的过程中,我们整理了一系列涉及多个领域和任务的定性样本。这些样本的观察结果表明,GPT-4V 能够处理任意混合的多模态输入,并且其功能的通用性使其成为一个强大的多模态通用系统。此外,GPT-4V 独特的识别输入图像上绘制的视觉标记的能力,为发展新的人机交互方式,比如视觉参考提示,提供了可能。报告最后深入讨论了基于 GPT-4V 系统的新兴应用场景和未来研究方向。我们希望这一初步的探索能够启发未来关于多模态任务制定的下一代研究,发掘和强化 LMMs 以解决现实世界问题的新方法,以及对多模态基础模型有更深的理解。
注:报告专注探索具备视觉功能的 GPT-4V(ision),并依据 OpenAI 的相关报告 OpenAI (2023b, a) 将其命名为“GPT-4V”。同时,我们将模型的纯文本版本称为“GPT-4 (no vision)” OpenAI (2023a)。
第一章 引言
1.1 动机和概述
近年来,大型语言模型(LLMs)取得的重大突破,例如由 Brown 等人 (2020),OpenAI (2023a) 及 Chowdhery 等人 (2022) 的研究,展现出在各种领域和任务中的卓越多功能性和能力。未来,多模态大模型(LMMs)计划整合多感官技能,以扩充 LLMs 的能力,并实现更强的通用智能。考虑到视觉是人类感官中的主要部分,许多 LMMs 的研究首先关注拓展视觉能力。一些初步研究或是微调视觉编码器以适应预先训练好的 LLM,或是采用视觉-语言模型将视觉输入转化为 LLMs 能理解的文本。然而,大多数现有模型的规模和数据有限,这可能限制了其展现多种引人入胜能力。目前,基于如 GPT-4(无视觉功能)和 PaLM 这样的顶尖 LLMs 开发的 LMMs 的现状和新兴多模态能力仍然是个未知数。在这篇论文中,我们初步探讨了(早期版本的)GPT-4V,这是一个集成了视觉功能的顶尖 LMM,它基于最先进的 LLM 构建,并用大量的多模态数据进行训练。
我们对 GPT-4V 的研究主要围绕以下几个核心问题。
我们想了解 GPT-4V 支持哪些输入及其工作方式是什么? 网页链接
转载请注明:多模态大模型(LMMs)的曙光:初探 GPT-4V(ision)多模态大模型(LMMs)不仅拥有大型语言模型(LLMs)的特点,还拓宽了其多感官技能,例如视觉理解,从而实现了更... | AI 時.空 | AiTime.Space