评论能力强于GPT-4,上交开源13B评估大模型Auto-J随着生成式人工智能技术的快速发展,确保大模型与人类价值(意图)对齐(Alignment)已经成为行业的重要挑战。...
评论能力强于GPT-4,上交开源13B评估大模型Auto-J
随着生成式人工智能技术的快速发展,确保大模型与人类价值(意图)对齐(Alignment)已经成为行业的重要挑战。
虽然模型的对齐至关重要,但目前的评估方法往往存在局限性,这也让开发者往往困惑:大模型对齐程度如何?这不仅制约了对齐技术的进一步发展,也引发了公众对技术可靠性的担忧。
为此,上海交通大学生成式人工智能实验室迅速响应,推出了一款全新的价值对齐评估工具:Auto-J,旨在为行业和公众提供更加透明、准确的模型价值对齐评估。
论文地址:arxiv.org/abs/2310.05470
项目地址:gair-nlp.github.io/auto-j/
代码地址:github.com/GAIR-NLP/auto-j
目前,该项目开源了大量资源,包括:
Auto-J 的 130 亿参数模型(使用方法,训练和测试数据也已经在 GitHub 上给出);所涉及问询场景的定义文件;每个场景手工构建的参考评估准则;
能够自动识别用户问询所属场景的分类器等。
该评估器有如下优势:网页链接
版权声明: 发表于 2023-10-22 15:12:14。
转载请注明:评论能力强于GPT-4,上交开源13B评估大模型Auto-J随着生成式人工智能技术的快速发展,确保大模型与人类价值(意图)对齐(Alignment)已经成为行业的重要挑战。... | AI 時.空 | AiTime.Space
转载请注明:评论能力强于GPT-4,上交开源13B评估大模型Auto-J随着生成式人工智能技术的快速发展,确保大模型与人类价值(意图)对齐(Alignment)已经成为行业的重要挑战。... | AI 時.空 | AiTime.Space
暂无评论...