图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」如何给大模型一个真正公平评价标准呢?世界最强AI——ChatGPT可以通过各种考试,甚至输出...

贴文 3个月前
1.8K 0

图灵测试已死!ChatGPT通过人类考试也不算,超强AI评估新秀「逻辑谜题」

如何给大模型一个真正公平评价标准呢?

世界最强AI——ChatGPT可以通过各种考试,甚至输出回答让人难以辨别真假。

然而,它也有力所不及之处,那便是解决简单的视觉逻辑难题。

在一项由屏幕上排列的一系列色彩鲜艳的块组成的测试中,大多数人都能找出连接的图案。

但是,根据研究人员今年 5 月的一份报告,GPT-4在一类图案的测试中正确率仅为1/3,而在另一类图案中正确率仅为3%。

论文地址:arxiv.org/pdf/2305.07141.pdf

这项研究背后的团队,旨在为了测试AI系统的能力提供一个更好的基准,并帮助解决GPT-4等大型语言模型的难题。

论文作者Melanie Mitchell表示,人工智能领域的人们正在为如何评估这些系统而苦苦挣扎。

AI评估如何有效?

在过去的两三年里,LLM 在完成多项任务的能力上已经超越了以前的人工智能系统。

它们的工作原理很简单,就是根据数十亿在线句子中单词之间的统计相关性,在输入文本时生成可信的下一个单词。

对于基于LLM构建的聊天机器人来说,还有一个额外的元素:人类训练员提供了大量反馈,以调整机器人的反应。

令人惊叹的是,这种类似于自动完成的算法是在大量人类语言存储的基础上训练出来的,其能力的广度令人叹为观止。

其他人工智能系统可能会在某项任务中击败 LLM,但它们必须在与特定问题相关的数据上进行训练,无法从一项任务推广到另一项任务。

哈佛大学的认知科学家Tomer Ullman表示,从广义上讲,对于LLM背后发生的事情,两个阵营的研究人员持有截然相反的观点。一些人将算法的成就归因于推理或理解的闪光点。其他人(包括他自己和Mitchell等人)则要谨慎得多。

讨论双方的研究人员表示,像逻辑谜题这样揭示人类与AI系统能力差异的测试,是朝着正确方向迈出的一步网页链接

暂无评论

暂无评论...