[666] - 转发 @明风: 在5月24日的微软Build大会上,OpenAI的Andrej Karpathy做了《State of GPT》的演讲,其中的第一部分:How to train your (Chat)GPT As...


- 转发 @明风: 在5月24日的微软Build大会上,OpenAI的Andrej Karpathy做了《State of GPT》的演讲,其中的第一部分:How to train your (Chat)GPT Assistant,体系化地介绍了LLM的训练过程。虽然内容不是很多,也避开了GPT-4的细节,但是这依然可以算是在ChatGPT发布之后,OpenAI第一次面向开发者稍微有干货的演讲。它对LLM的训练(PreTrain)和调优(FineTune)给了大方向指引,值得细细咀嚼。

图2是非常关键的一张地图,完整的呈现了一个LLM的训练过程,这个图其实非常的严谨和信息量丰富。横轴被细分为4个阶段,其中第一个阶段属于PreTrain,而后面3个阶段属于FineTune。纵轴是数据->算法->模型,还有资源消耗,而各个模型之间的顺序和连接,标注得非常到位。其中很多细节,走在LLM路上的人应该已经知道或者尝试过了,但是这个体系化的地图梳理,可以让大家看看自己在哪里,还需要什么,是非常有帮助的。

在PreTrain阶段,从各种来源得的海量数据,从Raw Text被Token成Integers用于训练,这里他用了GPT-3和LLaMA比较,并且公开承认LLaMA效果比GPT-3好,虽然LLaMA模型大小不如GPT-3,但是由于训练用的Tokens更多,所以效果更好(应该是原料和模型架构都更好的原因)。另外他把训练用的超参数和成本,也都根据公开的数据进行比较了,GPT在超参数的控制上,相对更加细致。另外可以看到LLaMA 65B用了2048张A100的卡训练了21天,500w美元,真是超级吞金兽~

在FineTune的3个阶段(Supervised FineTuning + Reward Modeling + Reinforcement Learning),模型按SFT->RM->RL的方向进化,每个细化阶段都需要不同的人工设计的数据集和指令集。这里Andrej给出了SFT和RM的数据集样例,但是实际上并没有介绍其它细节了,不如PreTrain阶段的详细。在RLHF阶段,他还提到了RLHF会让模型更加的准确,但是会损失熵和多样性,所以其实BM在多样性上会表现更好。

最后,他对目前公开的模型,用伯克利的一个榜单做了总结,并提示前3名都是经过RLHF的RL模型,而后面的都是SFT模型,就开始讲下一部分LLM的应用了。其实他这里如果再稍微延展一下,就可以去做很多学术会议的Keynote Talk了,是OpenAI最近为数不多的Open了。

(Andrej是李飞飞的学生,早期加入OpenAI,跳去了Tesla,又回OpenAI了,他有门深度学习课程很受欢迎,另外语速真的超级快,像个没得感情的机器人,符合OpenAI的风格

完整视频自己科学搜索:State of GPT,或者可以直接看@宝玉xp 的传送门视频:网页链接,有中文字幕