Mamba可以替代Transformer,但它们也能组合起来使用Transformer 很厉害,但并不完美,尤其是在处理长序列方面。而状态空间模型(SSM)则在长序列上的表现相当不...

贴文 2个月前
620 0

Mamba可以替代Transformer,但它们也能组合起来使用

Transformer 很厉害,但并不完美,尤其是在处理长序列方面。而状态空间模型(SSM)则在长序列上的表现相当不俗。早在去年就有研究者提出可使用 SSM 替代 Transformer,参见文章《预训练无需注意力,扩展到4096个token不成问题,与BERT相当》,前些天基于 SSM 方法的 Mamba 更是异军突起,推理吞吐量达到了 Transformer 的五倍之多,参阅《五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈》。

但实际上,SSM 和 Transformer 并不是非此即彼的两种架构,它们完全可以组合起来!

近日公布的一篇 NeurIPS 2023 论文《Block-State Transformers》就采用了这种做法,其不仅能轻松支持 65k token 长度的超长输入,而且计算效率还非常高,速度相比使用循环单元的 Transformer 足可提升十倍之多!这篇论文也得到了 Mamba 作者 Tri Dao 的点赞,他表示:「SSM 和Transformer 似乎可以互补。」

但在我们介绍这种新方法前,先简单说说 Transformer。在许多不同的自然语言处理(NLP)任务上,Transformer 的表现都非常出色。可以说 Transformer 已经很大相当程度上替代了循环神经网络。不仅如此,它也正在图像和视频等 NLP 之外的领域大展拳脚。

其成功的原因有很多,包括计算效率和架构层面的归纳偏差,这让它们非常适合在自然语言任务进行大规模训练。在计算方面,Transformer 能以并行方式处理输入序列的 token,从而使其能充分利用现代加速器硬件。此外,注意力机制让 Transformer 可以找到更长序列之间的关系,其方式是在推断下一个 token 时读取从过去 token 提取的所有信息。相比于 RNN 和 LSTM,自注意力有两个优势:(1) 存储信息以及将这些信息直接用作上下文的能力得到了极大提升,(2) 在更长序列上能更稳定地训练。

尽管 Transformer 相比 RNN 有很多优势,但它在输入序列长度的扩展上依然存在问题,其中涉及计算性能和质量等方面的原因。更进一步说,Transformer 的运行时间会随输入序列长度的增长成二次方增长,这会让训练这些模型的成本越来越高。 网页链接

暂无评论

暂无评论...