RetNet:万众期待的 Transformers 杀手Transformer 已成为大语言模型上的架构,因为它有效地克服了循环神经网络 (RNN) 的顺序训练问题。然而,Transformer也并不...

贴文 3个月前
860 0

RetNet:万众期待的 Transformers 杀手

Transformer 已成为大语言模型上的架构,因为它有效地克服了循环神经网络 (RNN) 的顺序训练问题。然而,Transformer也并不完美,因为它们仅解决了所谓“impossible triangle”的两条臂。微软的 RetNet 声称位于这个“impossible triangle”的正中心,胜过了所有尝试过但未能实现这一壮举的方法。突破:

RetNet 具有更好的语言建模性能
RetNet 内存消耗降低了 3.4 倍
….8.4 倍更高的吞吐量
…延迟降低 15.6 倍

这些速度比当前的 SOTA 快几个数量级,同时还提供更好的性能!如果其他团队能够复制这一点并且进入开源领域,这将是巨大的进步,但目前微软绝对是遥遥领先!

但问题是,是什么让它如此伟大?网页链接

暂无评论

暂无评论...