Google開發逐步蒸餾技術,小資料小模型也能打敗LLM為了解決模型大小和訓練資料收集成本之間的權衡問題,Google現在發展一種稱為逐步蒸餾(Distilling Step-by-St...
Google開發逐步蒸餾技術,小資料小模型也能打敗LLM
為了解決模型大小和訓練資料收集成本之間的權衡問題,Google現在發展一種稱為逐步蒸餾(Distilling Step-by-Step)的技術,可用比一般方法少得多的資料,訓練用於特定任務的小模型,但是效能卻能優於少樣本提示語言模型(Few-Shot Prompted LLM)。
大型語言模型雖然功能強大,但是實際部署卻具有各種挑戰,Google提到,光是要部署一個1,750億參數的大型語言模型,專用基礎設施的GPU記憶體就至少需要350 GB。更不用說先進的語言模型參數可能高達5,000億個,所以供應商為了規避這類部署挑戰,通常會選擇部署較小的專用模型。
研究人員解釋,小型專用模型有兩種訓練方式,分別是微調(Fine-tuning)和蒸餾(Distillation)。微調使用人工註釋資料,更新預先訓練的BERT或T5等規模較小的模型。而蒸餾的概念則是將一個大型模型,或稱為教師模型的知識,轉移至一個比較小的學生模型,運用大型語言模型所生成的標籤,訓練相同但規模較小的模型,雖然蒸餾法可以讓學生模型的規模和複雜性都遠低於教師模型,效能卻可以接近或是超越教師模型。
但是要達到良好的效能,微調法需要人工生成標籤,這個過程既昂貴又繁瑣,而蒸餾法則需要大量未標記的資料,且收集資料本身就並非一件簡單的事。因此Google發展了逐步蒸餾法,這相對是一個簡單的機制,能夠讓研究人員以比標準微調或是蒸餾法少得多的訓練資料,訓練一個更小且專用於特定任務的模型,而且效能還可能可以優於少樣本提示語言模型网页链接
版权声明: 发表于 2023-09-23 10:15:35。
转载请注明:Google開發逐步蒸餾技術,小資料小模型也能打敗LLM為了解決模型大小和訓練資料收集成本之間的權衡問題,Google現在發展一種稱為逐步蒸餾(Distilling Step-by-St... | AI 時.空 | AiTime.Space
转载请注明:Google開發逐步蒸餾技術,小資料小模型也能打敗LLM為了解決模型大小和訓練資料收集成本之間的權衡問題,Google現在發展一種稱為逐步蒸餾(Distilling Step-by-St... | AI 時.空 | AiTime.Space
暂无评论...