在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 G...
在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细
最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 GPT 的发布引领了业界和学术界的多项突破。自 GPT-4 发布以来,大型多模态模型 (LMM) 引起了研究界越来越多的兴趣,许多工作致力于构建多模态 GPT-4。
近日,GPT-4V (ision) 由于出色的多模态感知和推理能力得到了大家格外的关注。然而,尽管 GPT-4V 具有前所未有的视觉语言理解能力,但其细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。
举例来说,当用户询问下图中「放置在右边笔记本电脑的左边是什么物体?」GPT-4V 给出了马克杯这个错误的答案。当用户接着询问,「想找一个靠窗的座位,我可以坐在哪里?」GPT-4V 同样回答不正确。
在意识到上述问题后,来自微软、香港科技大学等机构的研究者提出了一种新的视觉 prompt 方法 Set-of-Mark(SoM),来解决 GPT-4V 在细粒度视觉任务上的问题。
论文地址:arxiv.org/pdf/2310.11441.pdf
论文主页:som-gpt4v.github.io/
实验及结果
研究者使用「分而治之」(divide-and-conquer)的策略来运行实验和评估。对于每个实例,他们使用新的聊天窗口,这样一来,评估期间就不会出现上下文泄露了。
具体来讲,研究者从每个数据集中选择了小规模的验证数据子集。对于数据集中的每个图像,他们在使用图像分割工具箱提取的区域上覆盖了一组标记。同时基于具体的任务,研究者利用不同的分割工具来提出区域 网页链接
版权声明: 发表于 2023-10-23 21:12:50。
转载请注明:在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 G... | AI 時.空 | AiTime.Space
转载请注明:在视觉提示中加入「标记」,微软等让GPT-4V看的更准、分的更细最近一段时间,我们见证了大型语言模型(LLM)的显著进步。特别是,生成式预训练 Transformer 或 G... | AI 時.空 | AiTime.Space
暂无评论...