GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会马里兰大学发布首个专为VLM设计的基准测试HallusionBench,全面测试GPT-4V视觉...
GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会
马里兰大学发布首个专为VLM设计的基准测试HallusionBench,全面测试GPT-4V视觉错误和语言幻觉。
GPT-4被吹的神乎其神,作为具备视觉能力的GPT-4版本——GPT-4V,也被大众寄于了厚望。
但如果告诉你,初中生都知道的勾股定理,只适用于直角三角形。
然而GPT-4V却自信将其用于钝角三角形中计算斜边长度。
还有更离谱的,GPT-4V直接犯了致命的安全错误,竟然认为红灯可以行驶。
这到底是怎么回事呢?
马里兰大学的研究团队在探索过程中发现了这些问题,并在此基础上提出了两种主要的错误类型:语言幻觉和视觉错觉,以此来阐释这些错误的原因。论文链接:arxiv.org/abs/2310.14566
项目主页:github.com/tianyi-lab/HallusionBench
研究人员依据上述分析,创建了一个名为HallusionBench的图像-语境推理基准测试,旨在深入探讨图像与语境推理的复杂性。
基于他们的对于视觉能力的测试,GPT4V在回答视觉问题组的错误率高达近90%。
研究者们还对新发布的GPT-4V(ision)和LLaVA-1.5进行了详细的研究,深入分析了它们在视觉理解方面的能力。
HallusionBench是第一个专为VLM设计的基准测试,主要关注视觉错觉和知识幻觉。这个测试包括约200组视觉问答,其中近一半是由人工专家创作的。
目前数据已经开源, 并且还在更新中。
涉及的图片类型多样,包括原始的错觉图片、图表、地图、海报、视频及手动制作或修改的图片,涵盖数学、计数、文化、动漫、体育和地理等多个领域 网页链接
版权声明: 发表于 2023-10-31 21:12:14。
转载请注明:GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会马里兰大学发布首个专为VLM设计的基准测试HallusionBench,全面测试GPT-4V视觉... | AI 時.空 | AiTime.Space
转载请注明:GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会马里兰大学发布首个专为VLM设计的基准测试HallusionBench,全面测试GPT-4V视觉... | AI 時.空 | AiTime.Space
暂无评论...