「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练大型语言模型(LLM)所使用的数据量和计算量都是前所未见的,这也使其有望从根本...

贴文 2个月前
1.6K 0

「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练

大型语言模型(LLM)所使用的数据量和计算量都是前所未见的,这也使其有望从根本上改变我们与数字世界的交互方式。随着 LLM 被不断快速部署到生产环境中并不断扩展进化,可以预见这些模型将能在更多复杂精细的用例中提供服务,比如分析具备丰富知识的密集型文档、提供更加真实和有参与感的聊天机器人体验、在编程和设计等交互式创造过程中辅助人类用户等。

为了支持这种演进发展,模型需要的一大关键能力就是:高效处理长上下文输入。

到目前为止,具有稳健长上下文功能的 LLM 主要来自专有 LLM API,如 Anthropic 和 OpenAI 提供的 LLM 服务。现有的开源长上下文模型往往评估研究不足,而是主要通过语言建模损失和合成任务来衡量其长上下文能力,这样的评估无法全面展示模型在各种真实世界场景中的有效性。

不仅如此,这些模型往往还会忽视在标准短上下文任务中保持强大性能的必要性,要么就直接不评估,要么报告出现了性能下降情况。

近日,Meta 团队提出了一种新方法,宣称可以有效地扩展基础模型的上下文能力,并且用该方法构建的长上下文 LLM 的性能表现优于所有现有的开源 LLM。

论文:arxiv.org/abs/2309.16039

他们是通过对 LLaMA 2 检查点进行持续预训练来构建模型,这其中用到了另外 4000 亿个 token 构成的长训练序列。在训练的系列模型中,较小的 7B/13B 变体模型的训练使用了 32,768 token 长的序列,而 34B/70B 变体则使用了 16,384 token 长的序列。网页链接

暂无评论

暂无评论...