GPT-4能「伪装」成人类吗?图灵测试结果出炉纯文本对话,安能辩我是 AI?在测试 AI 时,图灵测试是一个饱受争议但也久负盛名的评估方法,因此总会有研究者不畏繁...
GPT-4能「伪装」成人类吗?图灵测试结果出炉
纯文本对话,安能辩我是 AI?在测试 AI 时,图灵测试是一个饱受争议但也久负盛名的评估方法,因此总会有研究者不畏繁琐,对新兴的语言模型进行图灵测试。近日,对 GPT-4 的图灵测试结果新鲜出炉了。
「机器能够思考吗?」
为了解答这个问题,图灵设计了一个能间接提供答案的模仿游戏。该游戏的最初设计涉及到两位见证者(witness)和一位审问者(interrogator)。两位见证者一个是人类,另一个是人工智能;他们的目标是通过一个纯文本的交互接口说服审问者相信他们是人类。这个游戏本质上是开放性的,因为审问者可以提出任何问题,不管是关于浪漫爱情,抑或是数学问题。图灵认为这一性质能够对机器的智能进行广泛的测试。
后来这个游戏被称为图灵测试(Turing Test),但人们也在不断争论这一测试究竟测算的是什么以及哪些系统有能力通过它。
以 GPT-4 为代表的大型语言模型(LLM)简直就像是专为图灵测试而生的!它们能生成流畅自然的文本,并且在许多语言相关的任务上都已达到比肩人类的水平。实际上,已经有不少人在猜测 GPT-4 也许能够通过图灵测试了。
近日,加利福尼亚大学圣迭戈分校的研究者 Cameron Jones 和 Benjamin Bergen 发布了一份研究报告,给出了他们对 GPT-4 等 AI 智能体进行图灵测试的实证研究结果。
论文地址:arxiv.org/pdf/2310.20216.pdf
但在介绍这份研究的结果之前,需要说明的是,图灵测试究竟能否作为衡量智能水平的标准一直以来都颇具争议。
但 Jones 和 Bergen 认为图灵测试还是值得研究的,他们给出了两点理由:
一、图灵测试衡量的是 AI 系统能否欺骗对话者使之相信它是人类,这项能力本身是值得评估的。因为创造「伪人」可能会对社会产生巨大的影响,包括实现面向客户的工作岗位自动化、更低成本更高效地制造虚假信息、使用非对齐的 AI 模型从事欺诈活动、让人类不再相信人与人之间的真实互动。图灵测试能让人稳健地跟踪模型的这种能力随时间的变化情况。此外,它还能让人理解哪些因素有助于欺骗,比如模型大小和性能、prompt 设计技术、辅助性基础设施(例如访问实时信息的能力)以及审问者的经验和技能。
二、图灵测试能提供一个帮助研究人类和类人智能的框架。图灵测试不仅仅是评估机器;它也会涉及对人类参与者的文化、道德伦理和心理状态的假设。当审问者设计并完善问题时,他们也会隐含地揭示自己的信念 —— 人类有哪些特质以及哪些特质最难模仿。为此,研究者以定性方式分析了参与者设计问题的策略和理由依据,以为这些信念提供一个经验性的描述。
Cameron Jones 和 Benjamin Bergen 在 652 位人类参与者的帮助下检验了 GPT-4 模仿人类的能力,结果发现表现最好的设置能达到 41% 的成功率,还不及随机乱猜,更不及人类水平的 63%,因此可认为 GPT-4 未能通过图灵测试。他们还在测试过程中得到了一些惊人发现和有趣推断,比如诞生于 1966 年的规则式系统 ELIZA 的表现比 GPT-3.5 更好、AI 不犯错或犯错过多都容易暴露自己 网页链接
转载请注明:GPT-4能「伪装」成人类吗?图灵测试结果出炉纯文本对话,安能辩我是 AI?在测试 AI 时,图灵测试是一个饱受争议但也久负盛名的评估方法,因此总会有研究者不畏繁... | AI 時.空 | AiTime.Space