GPT-4抽象推理PK人类差距巨大!多模态远不如纯文本,AGI火花难以独立燃烧圣达菲研究所的科研人员用非常严谨的定量研究方法,测试出了GPT-4在推理和抽象方面与人...

贴文 2个月前
670 0

GPT-4抽象推理PK人类差距巨大!多模态远不如纯文本,AGI火花难以独立燃烧

圣达菲研究所的科研人员用非常严谨的定量研究方法,测试出了GPT-4在推理和抽象方面与人类水平还有较大差距。要想从GPT-4的水平发展出AGI,还任重道远!
GPT-4,可能是目前最强大的通用语言大模型。一经发布,除了感叹它在各种任务上的出色表现之外,大家也纷纷提出疑问:GPT-4是AGI吗?他真的预示了AI取代人类那一天的到来吗?

推特上也有一众网友发起了投票:

其中,反对的观点主要在于:

– 有限的推理能力:GPT-4被诟病最多的就是不能执行「反向推理」,而且难以形成对世界的抽象模型进行估计。

– 任务特定的泛化: 虽然GPT-4可以在形式上进行泛化,但在跨任务的目标方面可能会遇到困难。

那到底GPT-4的推理能力和抽象能力和人类相比,有多大的差距,大家的这种感性似乎一直没有定量的研究作为支撑。而最近圣达菲研究所的科研人员,系统性地对比了人类和GPT-4在推理和抽象泛化方面的差距。

论文链接:网页链接研究人员在GPT-4的抽象推理能力方面,通过ConceptARC基准测试评估了GPT-4文本版和多模态版的表现。结果说明,GPT-4仍与人类有较大差距。

ConceptARC是如何测试的?

ConceptARC基于ARC之上,ARC是一组1000个手动创建的类比谜题(任务),每个谜题包含一小部分(通常是2-4个)在网格上进行变换的演示,以及一个「测试输入」网格。

挑战者的任务是归纳出演示的基础抽象规则,并将该规则应用于测试输入,生成一个经过变换的网格。

如下图,通过观察演示的规则,挑战者需要生成一个新的网格。

ARC设计的目的在于,它强调了捕捉抽象推理的核心:从少量示例中归纳出普遍规律或模式,并能够灵活地应用于新的、以前未见过的情况;而弱化了语言或学到的符号知识,以避免依赖于先前训练数据的「近似检索」和模式匹配,这可能是在基于语言的推理任务上取得表面成功的原因 网页链接

暂无评论

暂无评论...