Cross Attention

2025/08/19 更新2025/08/19 發佈閱讀 3 分鐘

Cross Attention 是 Transformer 模型中的一種注意力機制，主要用於讓模型能夠同時處理來自兩個不同來源的序列信息。它常見於編碼器-解碼器架構中，解碼器透過 cross attention「關注」編碼器輸出的所有位置，從而有效地融合與利用輸入序列信息生成相應輸出。

Cross Attention 的運作原理：

• Query（查詢）：來自解碼器（或目標序列）的當前狀態表示。

• Key（鍵）和 Value（值）：來自編碼器輸出的序列表示。

• Cross attention 計算 Query 與所有 Key 的相似度（通常是點積），得到注意力權重分布。

• 根據權重分布加權求和對應的 Value，得到融合後的信息作為輸出。

• 這使得解碼器能「根據自己的狀態」動態從編碼的輸入序列中選擇相關信息。

與 Self Attention 的差異：

• Self attention 中 Query、Key、Value 三者都來自同一序列，處理的是序列內部元素間的依賴。

• Cross attention 中 Query 與 Key、Value 來自不同序列，用於跨序列信息交互。

應用案例：

• 機器翻譯：解碼器生成一個詞時，從編碼器輸入的所有詞語中選取相關信息。

• 多模態模型：如將文本（Query）和圖像特徵（Key、Value）結合，實現圖文信息融合。

• 視覺語言任務：在 ViLBERT、VisualBERT 等多模態模型中，用於視覺和語言信息交互。

簡單比喻：

Cross attention 就像一個學生（解碼器）在寫作文時，不僅考慮自己已有的想法（Query），還會參考一本書（編碼器輸出）中所有相關內容（Key、Value），有選擇地引用以豐富寫作。

總結：

Cross attention 是 Transformer 中促進不同序列間信息互動的重要機制，支持強有力的跨模態和序列到序列的學習與生成。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記生成式AI技術與應用

留言

郝信華 iPAS AI應用規劃師學習筆記

46會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/18

LoRA（Low-Rank Adaptation）

LoRA（Low-Rank Adaptation）是一種高效的微調技術，設計用於快速適應大型預訓練模型（如GPT、BERT、T5）以完成特定任務，同時大幅減少需要調整的參數數量。它通過在模型的權重矩陣中引入低秩（low-rank）分解，僅學習少量可訓練參數，避免完整微調帶來的龐大計算和記憶體消耗。

2025/08/18

LoRA（Low-Rank Adaptation）

2025/08/18

Textual Inversion

Textual Inversion 是一種用於個性化文字到圖像生成模型（如 Stable Diffusion）的技術。它允許用戶通過少量示例圖片（通常3-5張），讓模型學會一個新的「詞彙」或「概念」，這個詞彙對應於用戶提供的特定對象、風格或人物。主要原理： • 傳統的文字到圖像模型使用預訓練

2025/08/18

Textual Inversion

2025/08/18

Emergent Abilities（突現能力）

Emergent Abilities（突現能力）指的是在大型人工智慧模型（特別是大型語言模型）中，隨著模型規模、資料量和計算能力的增加，模型突然顯現出未被明確設計或訓練的全新技能或行為。這些能力不是模型明確被編程或預訓練的，而是隨著系統的複雜度提升自發出現，帶有某種不可預測性。主要特點： •

2025/08/18

Emergent Abilities（突現能力）

看更多

你可能也想看

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

長期以來，西方美學以《維特魯威人》式的幾何比例定義「完美身體」，這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯．奧尼奎庫的舞作《轉轉生》，探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28