百川智能发布Baichuan2大模型:全面领先Llama2,训练切片也开源了「成立公司之后,我们陆续发布开源模型,一切进展顺利,」王小川表示。在业界都惊讶于百川智能...

贴文 3个月前
1.7K 0

百川智能发布Baichuan2大模型:全面领先Llama2,训练切片也开源了

「成立公司之后,我们陆续发布开源模型,一切进展顺利,」王小川表示。
在业界都惊讶于百川智能平均 28 天发布一款大模型的时候,这家公司并没有停下脚步。
9 月 6 日下午的发布会上,百川智能宣布正式开源微调后的 Baichuan-2 大模型。

中国科学院院士、清华大学人工智能研究院名誉院长张钹在发布会上。

这是百川自 8 月发布 Baichuan-53B 大模型后的又一次新发布。本次开源的模型包括 Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat 与其 4bit 量化版本,并且均为免费可商用。
除了模型的全面公开之外,百川智能此次还开源了模型训练的 Check Point,并公开了 Baichuan 2 技术报告,详细介绍了新模型的训练细节。百川智能创始人兼 CEO 王小川表示,希望此举能够帮助大模型学术机构、开发者和企业用户深入了解大模型的训练过程,更好地推动大模型学术研究和社区的技术发展。

Baichuan 2 大模型开原链接:github.com/baichuan-inc/Baichuan2
技术报告:cdn.baichuan-ai.com/paper/Baichuan2-technical-report.pdf

今天开源的模型相对于大模型而言体量「较小」,其中 Baichuan2-7B-Base 和 Baichuan2-13B-Base 均基于 2.6 万亿高质量多语言数据进行训练,在保留了上一代开源模型良好的生成与创作能力,流畅的多轮对话能力以及部署门槛较低等众多特性的基础上,两个模型在数学、代码、安全、逻辑推理、语义理解等能力有显著提升网页链接

暂无评论

暂无评论...