7B羊驼战胜540B“谷歌版GPT”,MIT用博弈论调教大模型,无需训练就能完成基于博弈论,MIT提出了一种新的大模型优化策略。在其加持之下,7B参数的Llama在多个数据...
7B羊驼战胜540B“谷歌版GPT”,MIT用博弈论调教大模型,无需训练就能完成
基于博弈论,MIT提出了一种新的大模型优化策略。
在其加持之下,7B参数的Llama在多个数据集上超越了540B的“谷歌版GPT”PaLM。
而且整个过程无需对模型进行额外训练,消耗的算力资源更低。
这种基于博弈论制定的优化策略被称为均衡排名(Equilibrium Ranking)。
研究团队将大模型语言解码过程转化为正则化不完全信息博弈。
这个词可以拆解成“正则化”和“不完全信息博弈”两部分,我们将在原理详解部分展开介绍。
在博弈过程中,模型不断对生产的答案进行优化,让生成结果更加符合事实。
实验结果表明,在多个测试数据集上,均衡排名优化方式的效果显著优于其他方式,甚至其他模型。
那么,均衡排序方法具体是如何将博弈论应用到大模型当中的呢?
让大模型“自我博弈”
前面提到,研究人员将大模型进行语言解码的过程直接变成了“正则化不完全信息博弈”过程。
不完全信息博弈是整个方法的核心,正则化则是一种避免出错的机制,我们先来看这种博弈 网页链接
版权声明: 发表于 2023-10-17 21:19:45。
转载请注明:7B羊驼战胜540B“谷歌版GPT”,MIT用博弈论调教大模型,无需训练就能完成基于博弈论,MIT提出了一种新的大模型优化策略。在其加持之下,7B参数的Llama在多个数据... | AI 時.空 | AiTime.Space
转载请注明:7B羊驼战胜540B“谷歌版GPT”,MIT用博弈论调教大模型,无需训练就能完成基于博弈论,MIT提出了一种新的大模型优化策略。在其加持之下,7B参数的Llama在多个数据... | AI 時.空 | AiTime.Space
暂无评论...