Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光前段时间,那个爆火整个开源社区的 Mixtral 8x7B MoE 模型论文放出了。此前,由于 OpenAI 团队一直对 GPT-4...

贴文 1个月前
680 0

Mixtral 8x7B论文终于来了:架构细节、参数量首次曝光

前段时间,那个爆火整个开源社区的 Mixtral 8x7B MoE 模型论文放出了。

此前,由于 OpenAI 团队一直对 GPT-4 的参数量和训练细节守口如瓶。Mistral 8x7B 的放出,无疑给广大开发者提供了一种「非常接近 GPT-4」的开源选项。要知道,很早之前就有人爆料,OpenAI 也是采用了「混合专家模型」(Mixture of Experts,MoE)的构架来搭建 GPT-4。

随着论文的放出,一些研究细节也被公布出来。

论文地址:arxiv.org/pdf/2401.04088.pdf
项目地址:github.com/mistralai/mistral-src
论文主页:mistral.ai/news/mixtral-of-experts/

Mixtral 8x7B 是一种具有开放权重的稀疏专家混合模型 (SMoE),在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5。Mixtral 可以在小批量大小下实现更快的推理速度,并在大批量大小下实现更高的吞吐量。

Mixtral (即 Mixtral 8x7B)与单个 Mistral 7B 架构相同。

Mistral 7B 模型同样来自这家法国人工智能初创公司 Mistral AI ,这篇论文发表于去年 10 月,在每个基准测试中,Mistral 7B 都优于 Llama 2 13B,并且在代码、数学和推理方面也优于 LLaMA 1 34B。关于这项研究的更多内容,大家可以参考《所有基准测试都优于 Llama 2 13B,最好的 7B 模型来了,免费用》。 网页链接

暂无评论

暂无评论...