AI說書 - 從0開始 - 406 | PaLM 特色

發佈於三分鐘學AI (3)

2025/05/09 更新2025/05/09 發佈閱讀 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Google AI 的 Pathways Language Model（PaLM）擁有 5400 億個參數，並且是在稍早探討的 Pathways ML 系統上訓練的，PaLM 是在 6144 個 TPU v4 晶片上進行訓練的，Google 改進了 LLM 訓練過程中的許多方面，以下介紹其關鍵進展：

PaLM 共享了輸入和輸出嵌入矩陣，節省了大量記憶體，通常在一個 Transformer 模型中，嵌入層用來表示輸入和輸出的 Token，這意味著我們會有一個大小為 [x, d] 的輸入嵌入矩陣，x 代表輸入，d 代表向量的維度，同時也會有一個大小為 [x, d] 的輸出嵌入矩陣，總大小為 2 倍的 [x, d]，通過共享嵌入矩陣，能節省記憶體
在神經網路中，Biases 是額外的參數，添加到每一層的輸出中，幫助模型學習輸入和輸出資料之間更複雜的關係，然而，這通常會導致過擬合和不穩定性，在 PaLM 的情況下，結果證明了這項決策的有效性
Rotary Positional Embedding (RoPE) 結合了絕對與相對的嵌入，並將一個學習到的旋轉矩陣應用於操作中，一個簡單的概念例子是「Dog is a noun」，「Dog」在這個句子中的絕對位置是 1，「Dog」的相對位置仍然是 1，如果我們從動詞「is」開始分析序列，它的相對位置就是 -1，RoPE 通過旋轉操作矩陣編碼絕對位置資訊，並在自注意力子層中考慮到相對位置依賴性
Switched Gated Linear Unit (SwiGLU) 有兩個輸入，x 和 y，輸出為 x * sigmoid(y)，其中 sigmoid 是 sigmoid 函數，sigmoid(y) = 1 / (1 + exp(-y))，這有效地讓網路學會「開啟或關閉」（或調節）特定神經元的激活，在 PaLM 的情況下，經驗評估顯示這個過程改善了模型的質量，然而，這可能不適用於其他架構。Google AI 研究團隊還優化了許多其他訓練過程和架構的方面，更多詳情可參閱《PaLM: Scaling Language Modeling with Pathways》，作者：Chowdhery 等人 (2022)：https://arxiv.org/pdf/2204.02311.pdf。

#PromptEngineering

#chatgpt怎麼用

Learn AI 不 BI三分鐘學AI (3)AI從0開始-十四章

留言

Learn AI 不 BI

247會員

1.2K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/05/08

AI說書 - 從0開始 - 405 | PaLM 特色

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Google AI 的 Pathways Language Model（PaLM）擁有 5400 億個參數，並且是在稍早探討的 Pathways ML 系統上訓練的，P

2025/05/08

AI說書 - 從0開始 - 405 | PaLM 特色

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Google AI 的 Pathways Language Model（PaLM）擁有 5400 億個參數，並且是在稍早探討的 Pathways ML 系統上訓練的，P

2025/05/07

AI說書 - 從0開始 - 404 | Pathways 特色

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Pathways 的創新可以用下圖表示：當中說明為：客戶端將程序提交給資源管理器並控制這些程序的執行，當客戶端將程序提交給資源管理器時，資源管理器會為客戶端分配

2025/05/07

AI說書 - 從0開始 - 404 | Pathways 特色

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Pathways 的創新可以用下圖表示：當中說明為：客戶端將程序提交給資源管理器並控制這些程序的執行，當客戶端將程序提交給資源管理器時，資源管理器會為客戶端分配

2025/05/06

AI說書 - 從0開始 - 403 | Pathways 特色

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 PaLM 和 PaLM2 是基於 Pathways 技術構建的，Pathways 是 Google 的一項技術，通過數據並行、模型並行和執行級別並行來提高訓練大型語言模

2025/05/06

AI說書 - 從0開始 - 403 | Pathways 特色

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 PaLM 和 PaLM2 是基於 Pathways 技術構建的，Pathways 是 Google 的一項技術，通過數據並行、模型並行和執行級別並行來提高訓練大型語言模

#AI 的其他內容

出鞘的雙面刃：AI

目前共 17572 篇

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

Learn AI 不 BI

AI說書 - 從0開始 - 46

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 45，我們介紹了 Google 於2017 年提出的 Transformer 架構的 Positional Encoding (PE)

#AI#ai#PromptEngineering

2024/06/24

Learn AI 不 BI

AI說書 - 從0開始 - 46

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 45，我們介紹了 Google 於2017 年提出的 Transformer 架構的 Positional Encoding (PE)

#AI#ai#PromptEngineering

2024/06/24

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 66

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。先做個總回顧： Transformer 架構總覽：AI說書 - 從0開始 - 39 Attention 意圖說明：AI說書 - 從0開始 - 40 Transfo

#AI#ai#PositionalEncoding

2024/06/29

Learn AI 不 BI

AI說書 - 從0開始 - 19

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 18中，介紹了OpenAI的GPT模型如何利用Inference的Pipeline產生Token。完整Pipeline可能

#AI#ai#PromptEngineering

2024/06/16

Learn AI 不 BI

AI說書 - 從0開始 - 19

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們已經在AI說書 - 從0開始 - 18中，介紹了OpenAI的GPT模型如何利用Inference的Pipeline產生Token。完整Pipeline可能

#AI#ai#PromptEngineering

2024/06/16

Learn AI 不 BI

AI說書 - 從0開始 - 81

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續xxxx，ChatGPT 產生的程式，我們將它匯入 Colab 執行看看 ( Colab 使用教學見使用Meta釋出的模型，實作Chat GPT - Part 0

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 81

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續xxxx，ChatGPT 產生的程式，我們將它匯入 Colab 執行看看 ( Colab 使用教學見使用Meta釋出的模型，實作Chat GPT - Part 0

#AI#ai#PromptEngineering

2024/07/10

Learn AI 不 BI

AI說書 - 從0開始 - 23

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後，我們來試用看看ChatGPT。嘗試問以下問題：Provide a

#AI#ai#PromptEngineering

2024/06/17

Learn AI 不 BI

AI說書 - 從0開始 - 23

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 22解釋Foundation Model與Engines意涵後，我們來試用看看ChatGPT。嘗試問以下問題：Provide a

#AI#ai#PromptEngineering

2024/06/17

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

Learn AI 不 BI

AI說書 - 從0開始 - 84

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。繼 AI說書 - 從0開始 - 82 與 xxx ，我們談論了衡量 AI 模型的方式，那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時，需要

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 84

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。繼 AI說書 - 從0開始 - 82 與 xxx ，我們談論了衡量 AI 模型的方式，那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時，需要

#AI#ai#PromptEngineering

2024/07/12

Learn AI 不 BI

AI說書 - 從0開始 - 26

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 25示範了ChatGPT程式的能力，現在我們繼續做下去。 AI說書 - 從0開始 - 25在步驟7：Plot the confusio

#AI#ai#PromptEngineering

2024/06/17

Learn AI 不 BI

AI說書 - 從0開始 - 26

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 25示範了ChatGPT程式的能力，現在我們繼續做下去。 AI說書 - 從0開始 - 25在步驟7：Plot the confusio

#AI#ai#PromptEngineering

2024/06/17

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

Learn AI 不 BI

AI說書 - 從0開始 - 27

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 25示範了ChatGPT程式的能力，同時在AI說書 - 從0開始 - 26靠ChatGPT產生Decision Tree程式，現在我們來

#AI#ai#PromptEngineering

2024/06/18

Learn AI 不 BI

AI說書 - 從0開始 - 27

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。延續AI說書 - 從0開始 - 25示範了ChatGPT程式的能力，同時在AI說書 - 從0開始 - 26靠ChatGPT產生Decision Tree程式，現在我們來

#AI#ai#PromptEngineering

2024/06/18

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News