百川智能开源最新商用大模型!王小川:比LLaMA更香,下一枪打ChatGPT我们现在可以获得比LLaMA更友好,且能力更强的开源模型。这次在发布会现场表达出“遥遥领先...

贴文 3个月前
1.2K 0

百川智能开源最新商用大模型!王小川:比LLaMA更香,下一枪打ChatGPT

我们现在可以获得比LLaMA更友好,且能力更强的开源模型。

这次在发布会现场表达出“遥遥领先”之意的,是百川智能CEO王小川。

保持一个月新发布一次大模型的频率,百川智能最新开源微调后的Baichuan2-7B,并且免费商用。

王小川表示,MMLU等英文评估基准的英文主流任务评分,70亿参数量的Baichuan2-7B在英文主流任务上与130亿参数的LLaMA2相当。

一并开源的还有Baichuan2-13B、Baichuan 2-13B-Chat与其4bit量化版本,以及模型训练从220B到2640B全过程的Check Poin。

同时公布了详细介绍训练细节的Baichuan2技术报告,旨在让外界了解其训练过程,“更好地推动大模型学术研究和社区的技术发展”。

Baichuan2系列大模型,开源的
Baichuan2系列的两款开源大模型,分别是70亿参数的Baichuan2-7B,以及130亿参数的Baichuan2-13B。

其数据取自万亿互联网数据和垂直行业,训练token规模在2.6TB。

据悉,Baichuan2系列大模型的数据处理借鉴了很多搜索时用到的经验。

一方面是在超大规模内容通过聚类系统,达到“小时级完成千亿数据清洗和去重工作”;另外,大部分数据清洗时进行了多粒度内容质量打分,支持细颗粒采样,从而提高模型质量(尤其是中文领域)。

系列里的两者均支持中、英、西、法等数十种语言,主要应用学术研究、互联网、金融等领域。

相比一代,Baichuan2数学能力提升49%,代码能力提升46%,安全能力提升37%,逻辑能力提升25%,语义理解能力提升15%,文理科能力方面均有提升网页链接

暂无评论

暂无评论...