Stable Diffusion

更新 發佈閱讀 2 分鐘

Stable Diffusion 是一個基於潛在擴散模型(Latent Diffusion Model, LDM)的文字到影像的生成模型,它能從文字描述自動生成高品質、高解析度的圖像。這個模型由 CompVis 團隊與 Stability AI 等合作開發,並基於 LAION 大型開源圖像語言對齊數據集訓練。

核心架構特色:

潛在擴散模型:Stable Diffusion 先通過 autoencoder 將高解析度圖像壓縮到一個較低維度的潛在空間,擴散過程在這個潛在空間中進行,減少計算量和記憶體需求。

條件化文本嵌入(CLIP):輸入的文字透過 CLIP 模型產生語義嵌入,這個文本嵌入作為條件融合進入擴散模型,引導圖像生成與文字相匹配。

U-Net 結構:用於預測潛在空間中噪聲的 U-Net,經過逐步去噪以合成完整圖像。

強大且高效:相較於直接在像素空間生成,Stable Diffusion 在潛在空間運作使計算更加高效,同時保持圖像品質。

優點:

可在標準 GPU 上以較低成本執行。

支援高解析度(如512x512或更大格式)影像生成。

具備靈活的條件控制能力,可生成多樣化風格和主題的圖像。

開源且廣泛應用於藝術創作、遊戲設計、視覺效果製作等領域。

運作流程簡述:

1. 使用 CLIP 編碼器將文字轉換成上下文向量。

2. 將潛在噪聲向量與上下文向量一起輸入擴散 U-Net。

3. 網路逐步去除潛在空間的噪聲,重建出符合文字描述的潛在向量。

4. 利用解碼器將潛在向量轉回高解析度圖像。

總結:

Stable Diffusion 是目前生成式 AI 領域非常受注目的文字到圖像模型,結合潛在擴散與語義條件化,實現了資源節省且畫質優秀的效果,成為藝術創作和生成模型應用的重要工具。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
46會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/08/18
Latent Diffusion Model(LDM)是一種現代深度生成模型,主要應用於高解析度影像生成(如 Stable Diffusion)。它在「潛在空間」(latent space)裡操作擴散過程,以更少資源實現高品質生成。 核心架構與原理: • Autoencoder 壓縮:先訓練一
2025/08/18
Latent Diffusion Model(LDM)是一種現代深度生成模型,主要應用於高解析度影像生成(如 Stable Diffusion)。它在「潛在空間」(latent space)裡操作擴散過程,以更少資源實現高品質生成。 核心架構與原理: • Autoencoder 壓縮:先訓練一
2025/08/18
T5(Text-to-Text Transfer Transformer)是由 Google AI 團隊於2020年提出的一種基於 Transformer 的自然語言處理模型。它的核心創新是將所有 NLP 任務統一表達為「文本轉文本(text-to-text)」的格式,不論是翻譯、摘要、問答、分類等
2025/08/18
T5(Text-to-Text Transfer Transformer)是由 Google AI 團隊於2020年提出的一種基於 Transformer 的自然語言處理模型。它的核心創新是將所有 NLP 任務統一表達為「文本轉文本(text-to-text)」的格式,不論是翻譯、摘要、問答、分類等
2025/08/18
Seq2Seq(Sequence-to-Sequence)是一種深度學習架構,專門用來處理可變長度的序列輸入並生成可變長度的序列輸出,特別適合語言翻譯、文本摘要、語音識別等自然語言處理任務。 核心架構-Encoder-Decoder • Encoder(編碼器):將輸入序列逐步讀入,提取其重要
2025/08/18
Seq2Seq(Sequence-to-Sequence)是一種深度學習架構,專門用來處理可變長度的序列輸入並生成可變長度的序列輸出,特別適合語言翻譯、文本摘要、語音識別等自然語言處理任務。 核心架構-Encoder-Decoder • Encoder(編碼器):將輸入序列逐步讀入,提取其重要
看更多
你可能也想看
Thumbnail
本文章探討了多智能體系統(MAS)在生成式AI領域中的應用,以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響,並提供了有關GenAI的一些額外信息。
Thumbnail
本文章探討了多智能體系統(MAS)在生成式AI領域中的應用,以及GenAI對於AI_MCU和Software defined hardware的影響。文章還總結了SDH設計模式對數據科學和人工智能時代的影響,並提供了有關GenAI的一些額外信息。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 75 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
本文章介紹了ControlCom影像合成模型的技術與架構,以及其與其他方法的比較。模型具有可控的圖像合成能力,並提供了豐富的細節信息。文章詳細解釋了模型的優勢、方法與架構,以及數據準備和結果與結論。
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 76 ,我們在給定句子 「 Transformers possess surprising emerging features 」的情
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
本週設計新聞: Stability AI 推出 Discord 服務 / Apple iPad 廣告炎上 / TAIWAN 品牌形象 3.0 / Krea AI 推出影片生成功能 / 總統就職禮賓人員服裝
Thumbnail
本週設計新聞: Stability AI 推出 Discord 服務 / Apple iPad 廣告炎上 / TAIWAN 品牌形象 3.0 / Krea AI 推出影片生成功能 / 總統就職禮賓人員服裝
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
Thumbnail
VQGAN是一種基於GAN(生成對抗式網路)的生成式模型,可以創造新的、逼真的圖像或修改已有圖像。本論文介紹了改進VQGAN用於StableDiffusion中的新方法架構,並提出了一種新的非對稱式VQGAN,具有更強的解碼器和兩個設計條件解碼器。論文下方另附相關資料連結。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News