GPT-4V数学推理如何?微软发布MathVista基准,评测报告长达112页微软最近发布了名为 “MathVista” 的全新多模态数学推理基准数据集,同时提供了一份涵盖112 页...
GPT-4V数学推理如何?微软发布MathVista基准,评测报告长达112页
微软最近发布了名为 “MathVista” 的全新多模态数学推理基准数据集,同时提供了一份涵盖112 页的详细评测报告,专注于大型多模态模型的数学推理表现。这一基准测试对于目前最先进的模型,如 GPT-4V,来说也是一项挑战,显示了这些模型在多模态数学问题解决方面的局限性。报告还深入分析了 GPT-4V 在自我验证、自洽性和多轮对话能力的研究潜力。
论文地址:arxiv.org/abs/2310.02255
项目地址:mathvista.github.io/HF
数据集:huggingface.co/datasets/AI4Math/MathVista
数据可视化:mathvista.github.io/
数学推理能力被视为实现通用人工智能的关键一步。除了传统的纯文字场景,许多数学研究和应用还涉及到丰富的图形内容,这为模型的多模态处理能力提出了更高的要求。
数学问题历史悠久,可以追溯到公元前 2000 年的美索不达米亚。那时的人们就已经使用泥板来记录包含梯形和三角形的数学问题。研究显示,早在希腊哲学家毕达哥拉斯生活之前,他们就掌握了毕达哥拉斯定理 —— 也就是著名的勾股定理。
中国古代数学的杰作《周髀算经》中不仅包含了勾股定理的优雅证明,也展示了我们祖先在数学领域的深厚造诣。
从小接受的数学教育中,我们经常看到各种生动有趣的图形,这些都强调了视觉元素在数学理解中的重要性。
在现代科学研究中,对大量图像数据进行数学分析成为了一个不可或缺的环节。尤其是随着大型语言模型(LLMs)和大型多模态模型(LMMs)的发展,这些模型在多种任务和领域中展现出令人印象深刻的问题解决能力。
然而,这些模型在视觉场景下的数学推理能力尚未被系统地研究。为了探索这一领域,微软联合加州大学洛杉矶分校(UCLA)和华盛顿大学(UW)共同开发了全新的 MathVista 基准数据集。这个数据集结合了多种数学和视觉任务的挑战,包含 6141 个问题,来源于 28 个现有的多模态数据集和 3 个新标注的数据集,包括 IQTest、FunctionQA 和 PaperQA。MathVista 中丰富的任务类型、推理方式和图像类型对现有的大型模型构成了巨大挑战。
微软的研究报告对12 个最新的大型模型进行了全面评估。实验结果显示,目前性能最强的 GPT-4V 在 MathVista 上达到了 49.9% 的准确率,显著优于排名第二的 Bard 模型,领先了 15.1%。然而,与人类表现相比,GPT-4V 仍有 10.4% 的差距。这种差异主要是由于它在理解复杂图形和进行严密推理方面的不足 网页链接
转载请注明:GPT-4V数学推理如何?微软发布MathVista基准,评测报告长达112页微软最近发布了名为 “MathVista” 的全新多模态数学推理基准数据集,同时提供了一份涵盖112 页... | AI 時.空 | AiTime.Space