《生成式人工智能服务管理暂行办法》实施,8家备案模型生成内容真实性如何?备案模型概述百度: 文心一言抖音: 云雀(豆包)百川智能: 百川大模型清华系 AI 公司...
《生成式人工智能服务管理暂行办法》实施,8家备案模型生成内容真实性如何?
备案模型概述
百度: 文心一言抖音: 云雀(豆包)百川智能: 百川大模型清华系 AI 公司智谱华章旗下的: 智谱清言商汤: 商量 SenseChatMiniMax: ABAB 大模型中科院: 紫东太初上海人工智能实验室: 书生通用大模型
本报告探讨了六个模型在事实准确性上的表现:百度的文心一言,抖音的 云雀(豆包),百川智能的百川大模型,清华系AI 公司智谱华章旗下的智谱清言,商汤的商量SenseChat,以及MiniMax的ABAB 大模型。另外两个模型因实务取用上的困难 (该评测时间为2023年9月5日,紫东太初模型需要申请后使用,书生通用大模型暂无与用户交互对话介面), 本次报告暂且没有讨论。除了评估的6个模型之外, 我们以OpenAI公司的GPT-4作为对照组。
评估实验
评估时间
2023年9月5日
评估内容
在本次评估中,团队在七个场景(未来可以逐步拓展到更丰富的场景)进行评估,涵盖了生成式人工智能可能在日常生活中被应用的领域,包含:通用知识场景、科学场景、医药场景、法律场景、金融场景、数学场景、以及中国近代史场景。团队一共从七个场景中收集了125个题目对当今国产大模型进行评估(该数据集ChineseFactEval目前已经公开)。
以下是各个场景的题目范例:网页链接
版权声明: 发表于 2023-09-14 8:16:01。
转载请注明:《生成式人工智能服务管理暂行办法》实施,8家备案模型生成内容真实性如何?备案模型概述百度: 文心一言抖音: 云雀(豆包)百川智能: 百川大模型清华系 AI 公司... | AI 時.空 | AiTime.Space
转载请注明:《生成式人工智能服务管理暂行办法》实施,8家备案模型生成内容真实性如何?备案模型概述百度: 文心一言抖音: 云雀(豆包)百川智能: 百川大模型清华系 AI 公司... | AI 時.空 | AiTime.Space
暂无评论...