「教科书级」数据能有多大作用?微软超强小模型引热议
随着大模型掀起新一轮 AI 热潮,人们开始思考:大模型的强大能力来源于什么?
当前,大模型一直在由不断增加的「大数据」来推动。「大模型 + 大数据」似乎已经成为构建模型的标准范式。但随着模型规模和数据量的不断增长,算力的需求会迅速膨胀。一些研究者尝试探索新思路。
6 月,微软发布了一篇题为《Textbooks Are All You Need》的论文,用规模仅为 7B token 的「教科书质量」数据训练了一个 1.3B 参数的模型 ——phi-1。尽管在数据集和模型大小方面比竞品模型小几个数量级,但 phi-1 在 HumanEval 的 pass@1 上达到了 50.6% 的准确率,在 MBPP 上达到了 55.5%。
phi-1 证明高质量的「小数据」能够让模型具备良好的性能。最近,微软又发表了论文《Textbooks Are All You Need II: phi-1.5 technical report》,对高质量「小数据」的潜力做了进一步研究。
论文地址:arxiv.org/abs/2309.05463
模型简介
架构
研究团队使用 phi-1 的研究方法,并将研究重点放在自然语言常识推理任务上,创建了拥有 1.3B 参数的 Transformer 架构语言模型 phi-1.5。phi-1.5 的架构与 phi-1 完全相同,有 24 层,32 个头,每个头的维度为 64,并使用旋转维度为 32 的旋转嵌入,上下文长度为 2048。
此外,该研究还使用 flash-attention 进行训练加速,并使用 codegen-mono 的 网页链接
版权声明: 发表于 2023-09-15 8:21:28。
转载请注明:「教科书级」数据能有多大作用?微软超强小模型引热议随着大模型掀起新一轮 AI 热潮,人们开始思考:大模型的强大能力来源于什么?当前,大模型一直在由不断增加... | AI 時.空 | AiTime.Space
转载请注明:「教科书级」数据能有多大作用?微软超强小模型引热议随着大模型掀起新一轮 AI 热潮,人们开始思考:大模型的强大能力来源于什么?当前,大模型一直在由不断增加... | AI 時.空 | AiTime.Space
暂无评论...