AI說書 - 從0開始 - 58

LearnAI

發佈於三分鐘學AI

2024/06/28 更新2024/06/27 發佈閱讀 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

目前我們已經完成：

Single-Head Attention 數學說明：AI說書 - 從0開始 - 52
Multi-Head Attention 數學說明：AI說書 - 從0開始 - 53
Attention 機制程式說明 - 輸入端：AI說書 - 從0開始 - 53
Attention 機制程式說明 - Query 端：AI說書 - 從0開始 - 54
Attention 機制程式說明 - Key 端：AI說書 - 從0開始 - 54
Attention 機制程式說明 - Value 端：AI說書 - 從0開始 - 55
Attention 機制程式說明 - Query 、 Key 、 Value 結果：AI說書 - 從0開始 - 56
Attention 機制程式說明 - Attention Score 計算：AI說書 - 從0開始 - 57

目前我們已經計算出 Attention Score ，現在來執行正規化：

回顧 AI說書 - 從0開始 - 57，我已經得到 A 為

A = [ 2   4   4 
      4   16  12
      4   12  10 ]

接著對 A 執行正規化得到 A^'，程式為：

scores[0] = softmax(A.transpose()[0])
scores[1] = softmax(A.transpose()[1])
scores[2] = softmax(A.transpose()[2])
print(scores[0])
print(scores[1])
print(scores[2])
A' = scores.transpose() # Column Normalized

具體數學是這樣，矩陣 A^' 的元素我用 [i, j] 來表示：

A^'[1, 1] = exp(2) / (exp(2) + exp(4) + exp(4))
A^'[2, 1] = exp(4) / (exp(2) + exp(4) + exp(4))
A^'[3, 1] = exp(4) / (exp(2) + exp(4) + exp(4))
A^'[1, 2] = exp(4) / (exp(4) + exp(16) + exp(12))
A^'[2, 2] = exp(16) / (exp(4) + exp(16) + exp(12))
A^'[3, 2] = exp(12) / (exp(4) + exp(16) + exp(12))
A^'[1, 3] = exp(4) / (exp(4) + exp(12) + exp(10))
A^'[2, 3] = exp(12) / (exp(4) + exp(12) + exp(10))
A^'[3, 3] = exp(10) / (exp(4) + exp(12) + exp(10))

Learn AI 不 BI三分鐘學AIAI從0開始-第二章

留言

Learn AI 不 BI

247會員

1.2K內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2024/07/05

AI說書 - 從0開始 - 71

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。從 AI說書 - 從0開始 - 37 到 AI說書 - 從0開始 - 70 ，我們完成書籍：Transformers for Natural Language Proc

2024/07/05

AI說書 - 從0開始 - 71

2024/07/04

AI說書 - 從0開始 - 70

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformer 的重要性已經被公認了，因此在 Hugging Face 中亦有被實作，呼叫方式如下： !pip -q install transformers

2024/07/04

AI說書 - 從0開始 - 70

2024/07/02

AI說書 - 從0開始 - 69

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Trainin

2024/07/02

AI說書 - 從0開始 - 69

看更多

你可能也想看

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11