GPT-4V在自动驾驶上应用前景如何?面向真实场景的全面测评来了GPT-4V 的发布让许多计算机视觉(CV)应用看到了新的可能。一些研究人员开始探索 GPT-4V 的实际应...

贴文 2周前
440 0

GPT-4V在自动驾驶上应用前景如何?面向真实场景的全面测评来了

GPT-4V 的发布让许多计算机视觉(CV)应用看到了新的可能。一些研究人员开始探索 GPT-4V 的实际应用潜力。

最近,一篇题为《On the Road with GPT-4V (ision): Early Explorations of Visual-Language Model on Autonomous Driving》的论文针对自动驾驶场景对 GPT-4V 的能力进行了难度递增的测试,从情景理解到推理,再到作为真实场景驾驶员的连续判断和决策。

论文地址:arxiv.org/pdf/2311.05332.pdf

具体来说,论文对 GPT-4V 在自动驾驶领域的探索主要集中在以下几个方面:

1、情景理解:该测试旨在评估 GPT-4V 的基本识别能力,包括识别驾驶时的天气和光照条件,识别不同国家的交通信号灯和标志,以及评估不同类型摄像头拍摄的照片中其他交通参与者的位置和行动。此外,出于好奇,他们还探索了不同视角的模拟图像和点云图像。

2、推理:在这一阶段,研究者深入评估了 GPT-4V 在自动驾驶环境下的因果推理能力。这项评估包括几个关键方面:首先,他们仔细研究了它在处理复杂 corner case(边缘情况,即发生概率较低的可能场景)时的表现,这些情况通常是对数据驱动感知系统的挑战。其次,他们评估了它在提供全景视图(surround view)方面的能力,这是自动驾驶应用中的一项重要功能。鉴于 GPT-4V 无法直接处理视频数据,他们利用串联的时间序列图像作为输入来评估其时间相关性能力。此外,他们还进行了测试,以验证其将现实世界场景与导航图像关联起来的能力,从而进一步检验其对自动驾驶场景的整体理解能力。

3、驾驶:为了充分发挥 GPT-4V 的潜力,研究者让它扮演一名经验丰富的驾驶员,让它在真实的驾驶环境中根据环境做出决策。他们的方法是以一致的帧率对驾驶视频进行采样,然后逐帧输入 GPT-4V。为了帮助它做出决策,他们提供了基本的车速和其他相关信息,并告知了每段视频的驾驶目标。他们要求 GPT-4V 采取必要行动,并对其选择做出解释,从而挑战其在实际驾驶场景中的能力极限 网页链接

暂无评论

暂无评论...