RetNet:万众期待的 Transformers 杀手Transformer 已成为大语言模型上的架构,因为它有效地克服了循环神经网络 (RNN) 的顺序训练问题。然而,Transformer也并不...
RetNet:万众期待的 Transformers 杀手
Transformer 已成为大语言模型上的架构,因为它有效地克服了循环神经网络 (RNN) 的顺序训练问题。然而,Transformer也并不完美,因为它们仅解决了所谓“impossible triangle”的两条臂。微软的 RetNet 声称位于这个“impossible triangle”的正中心,胜过了所有尝试过但未能实现这一壮举的方法。突破:
RetNet 具有更好的语言建模性能
RetNet 内存消耗降低了 3.4 倍
….8.4 倍更高的吞吐量
…延迟降低 15.6 倍
这些速度比当前的 SOTA 快几个数量级,同时还提供更好的性能!如果其他团队能够复制这一点并且进入开源领域,这将是巨大的进步,但目前微软绝对是遥遥领先!
但问题是,是什么让它如此伟大?网页链接
版权声明: 发表于 2023-09-14 8:16:01。
转载请注明:RetNet:万众期待的 Transformers 杀手Transformer 已成为大语言模型上的架构,因为它有效地克服了循环神经网络 (RNN) 的顺序训练问题。然而,Transformer也并不... | AI 時.空 | AiTime.Space
转载请注明:RetNet:万众期待的 Transformers 杀手Transformer 已成为大语言模型上的架构,因为它有效地克服了循环神经网络 (RNN) 的顺序训练问题。然而,Transformer也并不... | AI 時.空 | AiTime.Space
暂无评论...