无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生成果一个来自MIT博士生的惊人发现:只需对Transformer的特定层进行一种非常简单的修剪,即可在缩小模...

贴文 2个月前
770 0

无需额外训练提升模型30%性能!DeepMind科学家点赞MIT博士生成果

一个来自MIT博士生的惊人发现:

只需对Transformer的特定层进行一种非常简单的修剪,即可在缩小模型规模的同时显著提高模型性能。

效果主要体现在文本理解任务上,最高可达30%。

这在3个模型(LLama2、GPT-J和Roberta)和8个不同数 ...

暂无评论

暂无评论...