一行代码提高大模型10%性能,开发者:免费午餐大模型微调有“免费的午餐”了,只要一行代码就能让性能提升至少10%。在7B参数量的Llama 2上甚至出现了性能翻倍的...

贴文 1个月前
2K 0

一行代码提高大模型10%性能,开发者:免费午餐

大模型微调有“免费的午餐”了,只要一行代码就能让性能提升至少10%。

在7B参数量的Llama 2上甚至出现了性能翻倍的结果,Mistral也有四分之一的增长。

虽然这种方法用在监督微调阶段,但RLHF模型也能从中受益。

来自马里兰州大学、纽约大学等机构的研究人员提出了名为NEFT(une)的微调方式。

这是一种新的正则化技术,可以用于提高微调监督(SFT)模型的性能。

这种方法已经被HuggingFace收录进了TRL库,只要import再加一行代码就能调用。

NEFT不仅操作简便,而且没有显著的成本增加,作者称看起来是个“免费的午餐”。

有网友试着用这种方法微调了基于Guanaco(一种羊驼家族模型)的Mistral-7B,结果性能提升明显。

那么,NEFTune是如何用一行代码给一众大模型“打鸡血”的呢?

向模型中加入噪声
NEFTune的全称是Noisy Embedding Fine Tuning,即“带噪声的嵌入式微调”。

开发者认为,过拟合现象是限制大模型性能的一大因素,因此采用在训练阶段向嵌入层中加入噪声的方式来避免过拟合的出现,从而提高性能。

具体而言,训练数据库中的文本首先会被token化,并转化为嵌入向量。

然后,系统会随机生成一个噪声向量,并用缩放器将噪声调节成所设置的强度。

经过缩放后的噪声会加入到嵌入向量中,作为模型的输入,然后开始训练。

每次迭代训练时,都会生成新的噪声并加入到嵌入层中 网页链接

暂无评论

暂无评论...