Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPTLlama 2-Long计算量需求比重新训练降低40%,还不影响短任务性能!虽然大型...

贴文 2个月前
1.3K 0

Meta再放「长文本」杀器Llama 2-Long:70B尺寸登顶最强「32k上下文」模型,超越ChatGPT

Llama 2-Long计算量需求比重新训练降低40%,还不影响短任务性能!

虽然大型语言模型在处理日常问答、总结文本等任务上表现非常出色,但如何让LLM在不显著增加计算需求、不降低短文本性能的前提下,能够处理「超长文本输入」仍然是一个难题。

最近,Meta团队公开了支持长上下文的模型Llama 2 Long的训练方法,该模型的有效上下文窗口多达32768个token,在各种合成上下文探测、语言建模任务上都取得了显著的性能提升。

论文链接:arxiv.org/pdf/2309.16039.pdf

并且,模型在指令调优的过程中不需要借助人工标注的长指令数据,70B参数量的模型就已经在各种长上下文任务中实现了超越gpt-3.5-turbo-16 k的性能。

除了结果外,论文中还对模型的各个组件进行了深入分析,包括Llama的位置编码,并讨论了其在建模长依赖关系的限制;预训练过程中各种设计选择的影响,包括数据混合和序列长度的训练策略。

消融实验表明,在预训练数据集中具有丰富的长文本并不是实现强大性能的关键,验证了长上下文持续预训练比从头开始长序列预训练更有效,同样有效 网页链接

暂无评论

暂无评论...