国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队OpenAI开源的数学数据集,中国厂商新成绩一举冲到最前列!就在9月16日,国产大模型在权威推理评测集GS...
国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队
OpenAI开源的数学数据集,中国厂商新成绩一举冲到最前列!
就在9月16日,国产大模型在权威推理评测集GSM8K中,首次达到了80%正确率,大幅领先GPT-3.5(57.1%)和LLaMA2-70B(56.8%)。
而且这家厂商在大模型榜单上刷新全球纪录,已经不是第一次了。
它背后的公司在风起云涌的大模型技术江湖中,也频频被提及,越来越受关注。
不卖关子,它正是天工大模型,由昆仑万维打造。
怎么做到的?具体来看。
大模型推理能力Benchmark跻身前列
天工大模型这次一战成名的,是大模型数学推理能力评测基准,GSM8K。
GSM8K由OpenAI发布,是一个涵盖8500个小学水平高质量数学题的数据集,设计原则有四:
高质量、高多样性、中等难度和自然语言解决方案。
所以这家伙现在一般被用做测试各家大模型推理能力的Benchmark。
上个月,微软和中国科学院联合发布了一项关于WizardMath的研究结果,主要在GSM8K和另一个常见数学基准上测试了市面上主流开闭源大模型的性能。
闭源模型上,拿下最高分的是GPT-4,正确率92%;GPT-3.5的正确率为57.1%。
开源模型这边,不同参数规模的LLaMA-2最高正确率56.8%,最高分则被微软的WizardMath-70B拿走,正确率81.6%。
那么,天工大模型的成绩怎么样?
正确率80%网页链接
版权声明: 发表于 2023-09-19 8:27:06。
转载请注明:国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队OpenAI开源的数学数据集,中国厂商新成绩一举冲到最前列!就在9月16日,国产大模型在权威推理评测集GS... | AI 時.空 | AiTime.Space
转载请注明:国产大模型推理能力已超GPT-3.5!冲进OpenAI评测榜第一梯队OpenAI开源的数学数据集,中国厂商新成绩一举冲到最前列!就在9月16日,国产大模型在权威推理评测集GS... | AI 時.空 | AiTime.Space
暂无评论...