GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法让模型用代码自我验证解决方案,结合多数投票集成机制,推理准确率可以提升近30%!...
GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法
让模型用代码自我验证解决方案,结合多数投票集成机制,推理准确率可以提升近30%!
虽然大型语言模型(LLMs)在常识理解、代码生成等任务中都取得了非常大的进展,不过在数学推理任务上仍然存在很大改进空间,经常会生成无意义、不准确的内容,或是无法处理过于复杂的计算。
最近推出的一些语言模型,如GPT-4, PaLM-2都在数学推理上取得了重大进步,特别是OpenAI的最新版模型GPT-4 Code Interpreter,在较困难的数学推理数据集上也展现出了很高的性能。
为了探索「代码生成任务」对「语言模型推理能力」的影响,来自香港中文大学、南京大学、中国科学技术大学、清华大学、香港城市大学、长沙理工大学和塔夫茨大学的研究人员联合发布了一篇论文,通过在代码使用频率(Code Usage Frequency)上引入不同的约束限制进行实验验证。
论文链接:arxiv.org/abs/2308.07921
实验结果显示,GPT-4 Code Interpreter模型的成功在很大程度上要归功于「在生成和执行代码、评估代码执行的输出以及在收到不合理的输出」时纠正其解决方案方面的强大能力。
基于上述结论,研究人员提出了一种新颖且高效的提示方法,显式的基于代码的自我验证(CSV, code-based self-verification),以进一步提高GPT-4代码解释器的数学推理潜力。
该方法在GPT-4 Code Interpreter上采用zero-shot提示,以促使模型使用代码来对答案进行自我验证……网页链接
版权声明: 发表于 2023-09-02 9:14:38。
转载请注明:GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法让模型用代码自我验证解决方案,结合多数投票集成机制,推理准确率可以提升近30%!... | AI 時.空 | AiTime.Space
转载请注明:GPT-4 MATH准确率最高涨至84.3%!港中文、清华等七所顶尖高校提出全新CSV方法让模型用代码自我验证解决方案,结合多数投票集成机制,推理准确率可以提升近30%!... | AI 時.空 | AiTime.Space
暂无评论...