大型语言模型,用最少的数学和行话进行解释 本文来自于《Large language models, explained with a minimum of math and jargon》,不嵌入任何笔者的个人理解,...

贴文 1个月前
460 0

大型语言模型,用最少的数学和行话进行解释

  本文来自于《Large language models, explained with a minimum of math and jargon》,不嵌入任何笔者的个人理解,只是对原文的总结与记录。

  文章作者是Tim Lee和Sean Trott,Tim Lee是一位拥有计算机科学硕士学位的记者,Sean Trott是加州大学圣地亚哥分校的认知科学家。

  当ChatGPT于去年秋天推出时,它在科技行业和更大的世界中引发了冲击波,至今天,几乎每个人都听说过LLM,并且有数千万人尝试过它们,但是仍然没有多少人了解它们是如何工作的,大多数人只听说过LLM被训练成“预测下一个单词”,并且它们需要大量的文本来做到这一点,但仅此而已。

  而由于LLM的开发方式与传统软件那种由人类程序员提供明确的分步指令不同,ChatGPT建立在数十亿个普通语言单词训练的神经网络上,因此,地球上没有人完全了解LLM的内部工作原理,这需要再过数年或数十年才能被人类完全解析。

  本文则试图通过不使用技术术语或高级数学的方式下,令普罗大众对LLM内部的工作原理有一定的理解。

  本文将首先解释词向量,然后将深入研究Transformer,最后将解释这些模型是如何训练的 网页链接

暂无评论

暂无评论...