国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队OpenAI开源的数学数据集,中国厂商新成绩一举冲到最前列!就在9月16日,国产大模型在权威推理评测集GS...

贴文 2个月前
1.9K 0

国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队

OpenAI开源的数学数据集,中国厂商新成绩一举冲到最前列!

就在9月16日,国产大模型在权威推理评测集GSM8K中,首次达到了80%正确率,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%)。

而且这家厂商在大模型榜单上刷新全球纪录,已经不是第一次了。

它背后的公司在风起云涌的大模型技术江湖中,也频频被提及,越来越受关注。

不卖关子,它正是天工大模型,由昆仑万维打造。

怎么做到的?具体来看。

大模型推理能力Benchmark跻身前列
天工大模型这次一战成名的,是大模型数学推理能力评测基准,GSM8K。

GSM8K由OpenAI发布,是一个涵盖8500个小学水平高质量数学题的数据集,设计原则有四:

高质量、高多样性、中等难度和自然语言解决方案。

所以这家伙现在一般被用做测试各家大模型推理能力的Benchmark。

上个月,微软和中国科学院联合发布了一项关于WizardMath的研究结果,主要在GSM8K和另一个常见数学基准上测试了市面上主流开闭源大模型的性能。

闭源模型上,拿下最高分的是GPT-4,正确率92%;GPT-3.5的正确率为57.1%。

开源模型这边,不同参数规模的LLaMA-2最高正确率56.8%,最高分则被微软的WizardMath-70B拿走,正确率81.6%。

那么,天工大模型的成绩怎么样?

正确率80%网页链接

暂无评论

暂无评论...