评论能力强于GPT-4,上交开源13B评估大模型Auto-J随着生成式人工智能技术的快速发展,确保大模型与人类价值(意图)对齐(Alignment)已经成为行业的重要挑战。...

贴文 2个月前
1.6K 0

评论能力强于GPT-4,上交开源13B评估大模型Auto-J

随着生成式人工智能技术的快速发展,确保大模型与人类价值(意图)对齐(Alignment)已经成为行业的重要挑战。

虽然模型的对齐至关重要,但目前的评估方法往往存在局限性,这也让开发者往往困惑:大模型对齐程度如何?这不仅制约了对齐技术的进一步发展,也引发了公众对技术可靠性的担忧。

为此,上海交通大学生成式人工智能实验室迅速响应,推出了一款全新的价值对齐评估工具:Auto-J,旨在为行业和公众提供更加透明、准确的模型价值对齐评估。

论文地址:arxiv.org/abs/2310.05470
项目地址:gair-nlp.github.io/auto-j/
代码地址:github.com/GAIR-NLP/auto-j

目前,该项目开源了大量资源,包括:
Auto-J 的 130 亿参数模型(使用方法,训练和测试数据也已经在 GitHub 上给出);所涉及问询场景的定义文件;每个场景手工构建的参考评估准则;

能够自动识别用户问询所属场景的分类器等。
该评估器有如下优势:

1. 功能使用方面
支持 50 + 种不同的真实场景的用户问询(query)(如常见的广告创作,起草邮件,作文润色,代码生成等)能够评估各类大模型在广泛场景下的对齐表现;它能够无缝切换两种最常见的评估范式 —— 成对回复比较和单回复评估;并且可以 “一器多用”,既可以做对齐评估也可以做 “奖励函数”(Reward Model) 对模型性能进一步优化;同时,它也能够输出详细,结构化且易读的自然语言评论来支持其评估结果,使其更具可解释性与可靠性,并且便于开发者参与评估过程,迅速发现价值对齐过程中存在的问题。

2. 性能开销方面
在性能和效率上,Auto-J 的评估效果仅次于 GPT-4 而显著优于包括 ChatGPT 在内的众多开源或闭源模型,并且在高效的 vllm 推理框架下能每分钟评估超过 100 个样本。在开销上,由于其仅包含 130 亿参数,Auto-J 能直接在 32G 的 V100 上进行推理,而经过量化压缩更是将能在如 3090 这样的消费级显卡上部署使用,从而极大降低了 LLM 的评估成本 (目前主流的解决方法是利用闭源大模型(如 GPT-4)进行评估,但这种通过调用 API 的评估方式则需要消耗大量的时间和金钱成本 网页链接

暂无评论

暂无评论...