Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复谷歌Gemini实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。为保证公平,所有模型使用相...

贴文 2个月前
960 0

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

谷歌Gemini实力到底如何?卡耐基梅隆大学来了场专业客观第三方比较。

为保证公平,所有模型使用相同的提示和生成参数,并且提供可重复的代码和完全透明的结果。

不会像谷歌官方发布会那样,用CoT@32对比5-shot了

一句话结果:Gemini Pro版本接近但略逊于GPT-3.5 Turbo,GPT-4还是遥遥领先。

在深入分析中还发现Gemini一些奇怪特性,比如选择题喜欢选D……

不少研究者表示,太卷了,Gemini刚发布没几天就搞出这么详细的测试。

六大任务深入测试
这项测试具体比较了6大任务,分别选用相应的数据集:

知识问答:MMLU
推理:BIG-Bench Hard
数学:GSM8k、SVAMP、ASDIV、MAWPS
代码:HumanEval、ODEX
翻译:FLORES
上网冲浪:WebArena

知识问答:
喜欢选D
从结果可以看出,使用思维链提示在这类任务上不一定能带来提升。

MMLU数据集里都是多选题,对结果进一步分析还发现奇怪现象:Gemini更喜欢选D。

GPT系列在4个选项上的分布就要平衡很多,团队提出这可能是Gemini没针对多选题做大量指令微调造成的。

另外Gemini的安全过滤比较严重,涉及道德问题只回答了85%,到了人类性行为相关问题只回答了28%。

Gemini Pro表现超过GPT-3.5的两个科目是安全研究和高中微观经济学,但差距也不大,团队表示分析不出来什么特别的。

推理:长问题不擅长
Gemini Pro在更长、更复杂的问题上表现不佳,而GPT系列对此更稳健。

GPT-4 Turbo尤其如此,即使在较长的问题上也几乎没有性能下降,表明它具有理解复杂问题的强大能力 网页链接

暂无评论

暂无评论...