Llama 2-70B一夜之间打败GPT-4,让整个AI社区为之震惊!甚至,在AlpacaEval 2.0排行榜中,微调后的模型胜率完全碾压Claude 2、Gemini Pro等模型。Meta和NYU研究...

贴文 1个月前
900 0

Llama 2-70B一夜之间打败GPT-4,让整个AI社区为之震惊!

甚至,在AlpacaEval 2.0排行榜中,微调后的模型胜率完全碾压Claude 2、Gemini Pro等模型。

Meta和NYU研究团队究竟提出了什么秘制配方,才能让Llama 2-70B超强进化?

正如论文题目所言——「自我奖励语言模型」,模型生成训练数据,并评估这些数据的质量,然后用这些数据来自己训练自己。

简单来说,最新方法可以让LLM在迭代训练过程中不断自我改进。

论文地址:arxiv.org/pdf/2401.10020.pdf

LeCun也转赞了自家实验室的研究。

RLAIF已经不是新鲜事了,之前包括Anthropic,谷歌都推出过自己的「AI训AI」的技术,那么Meta的这项工作和之前的几家的RLAIF区别在哪里呢? 网页链接

暂无评论

暂无评论...