我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
PaLM 2 在不同模型大小的下游任務上表現顯著優於 PaLM,PaLM 2 系列中最大的模型 PaLM 2-L 甚至比 PaLM 的最大模型還要小!通過減少操作和並行處理,機器效能得到了優化,PaLM 2 建立在 PaLM 的進展之上,例如,我們使用相同的輸入和輸出嵌入矩陣,從而減少了計算量,另一個例子是將注意力子層和前饋網路的執行從以前的順序執行變為非同步執行。
Google 的研究團隊優化了訓練過程,有望降低硬體需求的大小和功耗,隨著 FLOPs 預算從 1 x 1019 增加到 1 x 10²²,最佳模型大小 (N) 和參數數量 (D) 以相同比例增長,這看似微不足道,但實際上至關重要,我們正在見證「縮放定律」的出現,Transformer 技術正在從經驗測試進化為總結規律,並創建出將幫助其他研究者的定律,最終他們也會產生新的定律。
更多技術細節見:https://arxiv.org/abs/2305.10403




















