我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
PaLM 和 PaLM2 是基於 Pathways 技術構建的,Pathways 是 Google 的一項技術,通過數據並行、模型並行和執行級別並行來提高訓練大型語言模型的效率。Pathways 論文的標題可能看起來有些深奧,Barham 等人於 2022 年發表的《Pathways: Asynchronous Distributed Dataflow》確實看起來像是一篇你可能不會想深入了解的論文,然而,一旦你開始閱讀,你就會被吸引住:
- Heterogeneous Execution:Pathways 可以在多種設備上運行程序,包括 TPU、CPU 和 GPU,這在整合所有可用的計算能力時是一項重大進步
- Asynchronous Execution:Pathways 允許程序以異步方式運行。這可能看起來不怎麼吸引人,但 PaLM 將基於這項技術,以令人驚訝的方式異步運行以前的順序子層
- Dataflow Programming:Pathways 包含數據流編程,用來編寫能夠擴展到大型數據集的程序
- 可擴展性:在需要時可以添加新功能



















