Stable Diffusion

2025/08/18 更新2025/08/18 發佈閱讀 2 分鐘

Stable Diffusion 是一個基於潛在擴散模型（Latent Diffusion Model, LDM）的文字到影像的生成模型，它能從文字描述自動生成高品質、高解析度的圖像。這個模型由 CompVis 團隊與 Stability AI 等合作開發，並基於 LAION 大型開源圖像語言對齊數據集訓練。

核心架構特色：

• 潛在擴散模型：Stable Diffusion 先通過 autoencoder 將高解析度圖像壓縮到一個較低維度的潛在空間，擴散過程在這個潛在空間中進行，減少計算量和記憶體需求。

• 條件化文本嵌入（CLIP）：輸入的文字透過 CLIP 模型產生語義嵌入，這個文本嵌入作為條件融合進入擴散模型，引導圖像生成與文字相匹配。

• U-Net 結構：用於預測潛在空間中噪聲的 U-Net，經過逐步去噪以合成完整圖像。

• 強大且高效：相較於直接在像素空間生成，Stable Diffusion 在潛在空間運作使計算更加高效，同時保持圖像品質。

優點：

• 可在標準 GPU 上以較低成本執行。

• 支援高解析度（如512x512或更大格式）影像生成。

• 具備靈活的條件控制能力，可生成多樣化風格和主題的圖像。

• 開源且廣泛應用於藝術創作、遊戲設計、視覺效果製作等領域。

運作流程簡述：

1. 使用 CLIP 編碼器將文字轉換成上下文向量。

2. 將潛在噪聲向量與上下文向量一起輸入擴散 U-Net。

3. 網路逐步去除潛在空間的噪聲，重建出符合文字描述的潛在向量。

4. 利用解碼器將潛在向量轉回高解析度圖像。

總結：

Stable Diffusion 是目前生成式 AI 領域非常受注目的文字到圖像模型，結合潛在擴散與語義條件化，實現了資源節省且畫質優秀的效果，成為藝術創作和生成模型應用的重要工具。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記生成式AI技術與應用

留言

郝信華 iPAS AI應用規劃師學習筆記

46會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/08/18

Latent Diffusion Model（LDM）

Latent Diffusion Model（LDM）是一種現代深度生成模型，主要應用於高解析度影像生成（如 Stable Diffusion）。它在「潛在空間」（latent space）裡操作擴散過程，以更少資源實現高品質生成。核心架構與原理： • Autoencoder 壓縮：先訓練一

2025/08/18

Latent Diffusion Model（LDM）

2025/08/18

T5（Text-to-Text Transfer Transformer）

T5（Text-to-Text Transfer Transformer）是由 Google AI 團隊於2020年提出的一種基於 Transformer 的自然語言處理模型。它的核心創新是將所有 NLP 任務統一表達為「文本轉文本（text-to-text）」的格式，不論是翻譯、摘要、問答、分類等

2025/08/18

T5（Text-to-Text Transfer Transformer）

2025/08/18

Seq2Seq

Seq2Seq（Sequence-to-Sequence）是一種深度學習架構，專門用來處理可變長度的序列輸入並生成可變長度的序列輸出，特別適合語言翻譯、文本摘要、語音識別等自然語言處理任務。核心架構－Encoder-Decoder • Encoder（編碼器）：將輸入序列逐步讀入，提取其重要

2025/08/18

Seq2Seq

看更多

你可能也想看

易樂的沙龍

AI時代: 無損編碼自由轉換和軟體定義硬件

本文章探討了多智能體系統（MAS）在生成式AI領域中的應用，以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響，並提供了有關GenAI的一些額外信息。

#人工智能#SSD#模型

2024/04/21

易樂的沙龍

AI時代: 無損編碼自由轉換和軟體定義硬件

#人工智能#SSD#模型

2024/04/21

仁和的論文整理

探索41個讓你驚豔的AI影像生成模型論文

本文探討了影像生成模型的多種應用，包括文字、圖像和聲音到影片的生成，涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究，分析影像生成技術的未來趨勢與挑戰，為讀者提供全面的理解與啟示。

2024/08/13

2024/08/13

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 75 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 76

#AI#ai#PromptEngineering

2024/07/07

仁和的論文整理

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

本文章介紹了ControlCom影像合成模型的技術與架構，以及其與其他方法的比較。模型具有可控的圖像合成能力，並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構，以及數據準備和結果與結論。

#模型#影像#背景

2024/07/03

仁和的論文整理

AI影像論文(02)：ControlCom影像合成模型-論文筆記整理

#模型#影像#背景

2024/07/03

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼，反而利用華麗的秀場視覺，引導觀眾在晚期資本主義的消費愉悅之中，而能驚覺「批判」本身亦可能被收編——而當絞繩升起，這場關於如何生存的黑色遊戲，又將帶領新時代的我們走向何種後現代的自我解構？

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

長期以來，西方美學以《維特魯威人》式的幾何比例定義「完美身體」，這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯．奧尼奎庫的舞作《轉轉生》，探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

Learn AI 不 BI

AI說書 - 從0開始 - 77

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 76 ，我們在給定句子「 Transformers possess surprising emerging features 」的情

#AI#ai#PromptEngineering

2024/07/07

Learn AI 不 BI

AI說書 - 從0開始 - 77

#AI#ai#PromptEngineering

2024/07/07

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌#專欄#cacaFly

2024/07/31

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28