全面对比GPT-3.5与LLaMA 2微调通用大模型虽好,但通过微调得到一个专属大模型不仅可以提高模型的可操控性、输出格式的可靠性和语气的一致性,还能让用户缩短提示...

贴文 1个月前
1.9K 0

全面对比GPT-3.5与LLaMA 2微调

通用大模型虽好,但通过微调得到一个专属大模型不仅可以提高模型的可操控性、输出格式的可靠性和语气的一致性,还能让用户缩短提示长度,加速API调用,降低成本。

本文作者Sam L’Huillier对GPT-3.5与LLaMA 2的微调进行了基准测试,以验证手动微调的模型能否以较低的成本接近GPT-3.5的性能水平,从而帮助用户在各类任务中选择最佳微调模型。

本文作者是微调实践者Sam L’Huillier。Sam毕业于伦敦帝国理工学院,曾是Brev.dev的创始工程师,致力于构建GPU云。

本文中,我将分享在SQL任务和函数表示任务中,对GPT-3.5与LLaMA 2的微调进行基准测试的实验。总体而言:

GPT-3.5在SQL任务(github.com/samlhuillier/spider-sql-finetune )和函数表示(github.com/samlhuillier/viggo-finetune )任务中的表现都略优于用LoRA微调的CodeLLaMA-34B(我发现的效果最好的模型)。
GPT-3.5的训练成本要高出4-6倍(部署成本甚至更高)。

为什么要做这个对比?因为GPT-3.5的微调十分昂贵,我想通过实验来验证,手动微调的模型能否以较低的成本接近GPT-3.5的性能水平。有趣的是,手动微调的模型性能确实更接近GPT-3.5!网页链接

暂无评论

暂无评论...