400万token,大模型推理飙升22倍!清华校友爆火一作,GitHub狂揽1.8k星大语言模型的上下文长度限制从此不存在了?!Meta、MIT、CMU的研究者最近刚刚发表了一篇论...

贴文 2个月前
1.3K 0

400万token,大模型推理飙升22倍!清华校友爆火一作,GitHub狂揽1.8k星

大语言模型的上下文长度限制从此不存在了?!

Meta、MIT、CMU的研究者最近刚刚发表了一篇论文,提出了一种被称为是「高效流式语言模型」(Efficient Streaming Language Models,ESLM)的方法,可以让有限上下文能力的语言模型能够支持几乎无限的上下文窗口。

arxiv.org/pdf/2309.17453.pdf

瞬间登顶Hacker News!

甚至,这一项目在GitHub上狂揽1.8k星。

上个动图大家先简单感受一下效果:

一句话来形容就是——完全停不下来!

因为LLM在预训练期间在有限的注意力窗口的限制下进行训练,尽管可以通过各种方法来扩展模型支持的上下文长度,但是模型可接受的序列长度仍然是有限的。

核心观点

研究人员想要解决的问题是:

能否在不牺牲效率和性能的情况下让大预言模型支持无限长度的上下文?

研究人员在尝试解决无限上下文长度输入时发现,限制模型能力最主要的原因是这两个:

1. 在解码阶段,基于Transformer的 LLM 会缓存之前所有token的键值状态(KV),如下图a所示,这可能会导致内存使用过多并增加解码延迟。

2. 现有模型的长度外推能力有限,当序列长度超出预训练期间设置的注意力窗口大小时,模型性能会严重下降。

解决这两个问题,研究人员尝试了两种方法:网页链接

暂无评论

暂无评论...