让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%大模型“识图”能力都这么强了,为啥还老找错东西?例如,把长得不太像的蝙蝠和...

贴文 1个月前
2.3K 0

让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%

大模型“识图”能力都这么强了,为啥还老找错东西?

例如,把长得不太像的蝙蝠和拍子搞混,又或是认不出一些数据集中的稀有鱼类……

这是因为,我们让大模型“找东西”时,往往输入的是文本。

如果描述有歧义或太偏门,像是“bat”(蝙蝠还是拍子?)或“魔鳉”(Cyprinodon diabolis),AI就会大为困惑。

这就导致用大模型做目标检测、尤其是开放世界(未知场景)目标检测任务时,效果往往没有想象中那么好。

现在,一篇被NeurIPS 2023收录的论文,终于解决了这个问题。

论文提出了一种基于多模态查询的目标检测方法MQ-Det,只需要给输入加上一个图片示例,就能让大模型找东西的准确率大幅提升。

在基准检测数据集LVIS上,无需下游任务模型微调,MQ-Det平均提升主流检测大模型GLIP精度约7.8%,在13个基准小样本下游任务上,平均提高了6.3%精度。

这究竟是怎么做到的?一起来看看 网页链接

暂无评论

暂无评论...