突破LLM擴展法則?MosaicML揭新研究成果一般來說,LLM擴展法則都是以模型參數量和訓練資料量,來估算模型品質的變化,就連熱門的DeepMind Chinchilla(龍貓)優...

贴文 2个月前
640 0

突破LLM擴展法則?MosaicML揭新研究成果

一般來說,LLM擴展法則都是以模型參數量和訓練資料量,來估算模型品質的變化,就連熱門的DeepMind Chinchilla(龍貓)優化方法也是。換句話說,這個法則是指,模型的訓練Token數和參數越多,模型表現理應越好。

但MosaicML團隊認為,這些公式忽略了模型推論成本。因此,他們修改了DeepMind的Chinchilla擴展法則,來根據目標,即理想的模型品質和運算成本需求,計算出最佳的LLM參數量與訓練資料集大小。他們的公式建議,可使用更少參數的模型,但以比Chinchilla優化方法更長的訓練時間,來訓練模型,一樣可實現高品質模型。

這項研究也實驗發現,Chinchilla模型在高推論需求下,可用更少的參數和更多資料,來進行優化訓練,還能大幅降低總運算成本,從70億參數、130億參數和700億參數的模型版本都是。該研究也討論了TinyLlama,這是一個11億參數的輕量版模型,使用了3兆個Token訓練而成,MosaicML表示,這是突破Chinchilla擴展法則的另一例,特別是當推論需求越接近訓練資料大小時,這股趨勢越明顯。不過,團隊也表示,他們的公式還需要進一步驗證適用性,特別是在預訓練Token數明顯超過模型參數的情形下。 网页链接

暂无评论

暂无评论...