贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增只要两行代码+11个小时微调,就能把大模型4k的窗口长度提高到32k。规模上,最长可以扩展到10万token,一口...
贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增
只要两行代码+11个小时微调,就能把大模型4k的窗口长度提高到32k。
规模上,最长可以扩展到10万token,一口气就能读完长篇小说的多个章节或中短篇小说。
贾佳亚韩松联合团队提出的这个基于LoRA的全新大模型微调方法,登上了GitHub热榜,开源一周时间已收获1k+ stars。
这种方式叫做LongLoRA,由来自香港中文大学和MIT的全华人团队联合出品。
在一台8个A100组成的单机上,增大窗口长度的速度比全量微调快数倍。
网友看了之后不禁表示,这个效率实在是令人印象深刻:
那么,用LongLoRA微调之后,模型会有什么样的变化呢?
一口气读完一部小说
研究团队的实验当中使用的模型是Llama 2。
经过LongLoRA方法微调之后,Llama 2-7B的窗口长度最高可提升到10万token。
实测发现,微调后的模型可以一口气读完一部小说,然后回答各种问题。
比如总结一下大刘在《三体》第三部中体现的中心思想,比总结内容还高出了一个层次。
模型给出的答案是与外星文明首次接触的危险性、星际旅行之困难与人类文明之脆弱,以及团结协作的重要性等内容。
的确每条在原著中都有所体现,而且也比较全面了。
除了对整部作品进行概括提炼,局部内容当然也可以询问。
小说中的角色也能对答如流,比如《西游记》中孙悟空是怎么开花成长的。
模型告诉我们,孙悟空很有智慧,但又有一颗顽皮的心,在伴随唐僧取经的过程中走向了成熟。
这次的总结依旧是很到位。
而且不仅是单个角色,不同人物之间复杂的关系也能了如指掌。
提问的方式可以简单粗暴些,直接要求描述这本书(《哈利波特》)中的人物关系。
模型以哈利·波特为中心,介绍了他的朋友韦斯莱、赫敏,敌人马尔福,以及邓布利多教授等人物。
除了看小说,LongLoRA微调后的Llama还可以读论文,生产力一下子就提高了
转载请注明:贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增只要两行代码+11个小时微调,就能把大模型4k的窗口长度提高到32k。规模上,最长可以扩展到10万token,一口... | AI 時.空 | AiTime.Space