北京理工大学-东南信息研究院自然语言处理团队的最新力作MindLLM-1.3B模型,在中英双语对话处理上实现了重大突破。MindLLM-1.3B模型概述MindLLM-1.3B是一款基于1...

贴文 4周前
870 0

北京理工大学-东南信息研究院自然语言处理团队的最新力作MindLLM-1.3B模型,在中英双语对话处理上实现了重大突破。

MindLLM-1.3B模型概述

MindLLM-1.3B是一款基于13亿参数的大型语言模型。该模型主要聚焦于中文对话任务,并通过有监督训练进行了优化。模型在轻量化设计下实现了快速部署和高效推理,特别适用于资源受限的场景,如车载系统和移动设备等。自发布以来,它在Hugging Face平台仅一个月内便获得超3000次下载,足以证明其在业界的影响力。

Huggingface模型下载:huggingface.co/bit-dny/MindLLM-1b3-chat-zh-v2.0
AI快站模型免费加速下载:aifasthub.com/models/bit-dny

技术背景与优势

MindLLM-1.3B在中英双语上进行预训练,体现了该模型在处理双语数据方面的强大能力。在与其他大型模型的比较中,例如MPT-7B和GPT-J-6B,MindLLM-1.3B在多项评测中表现出色。具体而言,在MMLU和AGIEval评测中,未经指令微调和对齐的MindLLM在性能上优于上述大型模型。在中文语境下,该模型在C-Eval和CMMLU评测中表现相当,甚至在某些方面超越了更大规模的模型。

模型对话能力训练

MindLLM-1.3B的训练材料包括丰富的中文指令数据,涵盖了人工标注、NLP数据模板转换、以及LLM生成等多种数据构造方式。团队通过精细的数据筛选和处理,构建了包含超过两千万条中文对话数据的庞大数据集,覆盖了从日常闲聊到语言处理、代码编程、书写辅助等多个领域。网页链接

暂无评论

暂无评论...