融合多个异构大语言模型,中山大学、腾讯 AI Lab 推出 FuseLLM随着 LLaMA、Mistral 等大语言模型的成功,各家大厂和初创公司都纷纷创建自己的大语言模型。但从头...

贴文 4周前
590 0

融合多个异构大语言模型,中山大学、腾讯 AI Lab 推出 FuseLLM

随着 LLaMA、Mistral 等大语言模型的成功,各家大厂和初创公司都纷纷创建自己的大语言模型。但从头训练新的大语言模型所需要的成本十分高昂,且新旧模型之间可能存在能力的冗余。

近日,中山大学和腾讯 AI Lab 的研究人员提出了 FuseLLM,用于「融合多个异构大模型」。

不同于以往的模型集成和权重合并,前者需要在推理时同时部署多个大语言模型,后者需要合并模型具备相同的结果,FuseLLM 能够从多个异构大语言模型中外化知识,将各自的知识和能力通过轻量的持续训练转移到一个融合大语言模型中。

该论文刚刚在 arXiv 上发布就引起了网友的大量关注和转发。

有人认为,「当想要在另一种语言上训练模型时,使用这种方法是非常有趣的」,「我一直在思考这件事」。网页链接

暂无评论

暂无评论...