全面的中文大语言模型评测来啦!香港中文大学研究团队发布ChatGPT 的一声号角吹响了2023年全球大语言模型的竞赛。2023年初以来,来自工业界和研究机构的各种大语...
全面的中文大语言模型评测来啦!香港中文大学研究团队发布
ChatGPT 的一声号角吹响了2023年全球大语言模型的竞赛。
2023年初以来,来自工业界和研究机构的各种大语言模型层出不穷,特别值得一提的是,中文大语言模型也如雨后春笋般,在过去的半年里不断涌现。
与此同时,和如何训练大语言模型相比,另一些核心的难题同时出现在学术界和产业界的面前:究竟应该如何理解和评价中文大语言模型的能力?在中文和英文大模型的理解和评测上又应该有什么联系与区别?
带着问题的思考,我们发现,近期的一系列中文大模型的评测研究陆续呈现,尽管极大地推进了中文大语言模型理解,但仍然有一些关键的研究问题需要关注和讨论。
想要准确全面地理解和评测中文大语言模型,这些问题亟须解决:
评测数据与指标的选择需要更加全面。传统的自动评测工作往往基于数量有限的考试题或部分开源数据集,采用的评测指标大多只关注广义的准确率。数据的选择不够丰富多样,指标上也忽视了鲁棒性、公平性等在模型应用中很重要的其他维度。而人工评测大模型因高昂的人力成本,在数据与指标的选择上更受制约。不一致的评测过程容易损害评测结果的可比性。提示(prompt)模板、超参数、数据预处理等环节都会对模型最终的结果有直接影响。难以避免的数据污染(data contamination)风险让评测对比难上加难。随着训练语料不断扩大,模型在训练过程中见过考试题和开源数据集的可能性也不断升高。
针对这些挑战,有研究团队已经给出了自己的探索与方案。
近日,EMNLP 2023的论文结果公布。来自香港中文大学计算机科学与工程学系的王历伟助理教授研究团队的CLEVA: Chinese Language Models EVAluation Platform 被EMNLP 2023 System Demonstrations 录取。
据CLEVA项目负责人王历伟教授介绍,CLEVA是其带领的港中文语言和视觉实验室(CUHK LaVi Lab)联合上海人工智能实验室合作研究的全面的中文大语言模型评测方法网页链接
转载请注明:全面的中文大语言模型评测来啦!香港中文大学研究团队发布ChatGPT 的一声号角吹响了2023年全球大语言模型的竞赛。2023年初以来,来自工业界和研究机构的各种大语... | AI 時.空 | AiTime.Space