谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5Gemini的推理能力,真的比GPT-4弱吗?此前,谷歌憋出的重磅复仇神器Gemini Pro,被发现在常识推理任...

贴文 2个月前
680 0

谷歌Gemini大逆转?斯坦福Meta华人证明其推理性能强于GPT-3.5

Gemini的推理能力,真的比GPT-4弱吗?

此前,谷歌憋出的重磅复仇神器Gemini Pro,被发现在常识推理任务中落后于OpenAI的GPT模型。

之后又有CMU发布的论文和实验,证明Gemini Pro的很多能力都略微落后于GPT-3.5 Turbo。

不过最近,斯坦福和Meta的学者为Gemini洗清了这一「冤屈」。

他们发现,这种基于有限数据集(HellaSWAG)的评估,并不能完全捕捉到Gemini真正的常识推理潜力。

论文地址:arxiv.org/abs/2312.17661

而在新测试集中,Gemini的推理能力比之前强很多!

Gemini的真正潜力

斯坦福和Meta的研究人员表示,以前的基于有限数据集的评估,对于Gemini不够公平。

这次,研究人员设计了需要跨模态整合常识知识的任务,以对Gemini在复杂推理任务中的表现进行彻底的评估。

研究人员对12个常识推理数据集进行了全面分析,从一般任务到特定领域的任务。

在其中的4个LLM实验和2个MLLM实验中,研究者证明了Gemini具有目前相当强的常识推理能力。

研究者对于当前流行的四大模型——Llama 2-70b、Gemini Pro、GPT-3.5 Turbo和GPT-4 Turbo进行了评估,

他们发现,总体而言,Gemini Pro的性能和GPT-3.5 Pro相当,准确性上落后于GPT-4 Turbo 网页链接

暂无评论

暂无评论...