Stable Diffusion 的 LoRA 是什麼?如何使用?

更新 發佈閱讀 4 分鐘
vocus|新世代的創作平台

LoRA 是什麼?為何在 Stable Diffusion 社群討論中常常出現?Prompt 有時看到很奇怪的文字是什麼?本文一次解答上述問題,並用白話文簡介 LoRA 原理,讓大家在操作時更有感覺!

目錄

LoRA 是什麼?

最詳細的 Stable diffusion WebUI 操作教學 – txt2img | Part 1 中提到,所有算圖的第一步是選擇模型(model,或者說 checkpoint)。

雖然每個 checkpoint 都是 Stable Diffusion model,但因為透過不同圖片訓練,神經元權重不同,因此有各自的風格(簡單想像,大家都是人類,但因為學習、經驗等不同,因此大家都能展現出獨特的自己)。

此時會發現幾個問題:

  • checkpoint 檔案非常大,動輒 2 ~ 7 GB 不等,若需要多種風格,將佔用大量硬碟空間
  • 每個 checkpoint 不能在算圖操作時 直接疊加 ,需先透過 Checkpoint Merger 作混合,產生出新的 checkpoint 才能使用
  • 若要 fine tune model 訓練新的風格,因模型過大,需大量硬體資源才能辦到

為了解決 fine-tuning large-language models 的問題, Microsoft researchers 提出 LoRA: Low-Rank Adaption of Large Language Models 方法。

簡單說明重點:

  • LoRA 透過 inject 的方式,在大型語言模型中,每個 transformer block 前插入一層 trainable layers (rank-decomposition matrices)
  • fine tune 訓練時,固定 model 所有神經元權重,只訓練 inject trainable layers 的權重,因此訓練參數量可以大幅下降
  • 權重參數下降代表檔案大小也變小,因此 LoRA 只有幾百 MB(通常是 151 MB)

若以上太學術看不懂沒關係,可以簡單把 LoRA 當成風格濾鏡來理解。在 Prompt 中加入 LoRA 引用,即能大幅改變算圖的結果,甚至也能同時套用多個 LoRA 來取得混合風格。使用上比單純更換 model 或作 checkpoint merge 更有彈性且多變。

延伸閱讀:Using LoRA for Efficient Stable Diffusion Fine-Tuning

去哪裡下載 LoRA?

如何在 M1 Macbook 上跑 Stable Diffusion? 文末有推薦各種風格的 LoRA,或者直接上 Civitai 下載網友分享的 LoRA...

👉👉前往 KodingWork - Stable Diffusion 的 LoRA 是什麼?如何使用? 閱讀全文


延伸閱讀

如何用 Stable Diffusion 產生高解析度的圖?
最詳細的 Stable diffusion WebUI 操作教學 – txt2img
如何在 M1 Macbook 上跑 Stable Diffusion?
免費用 Google Colab 玩 Stable Diffusion WebUI
不用顯卡也能玩 Stable Diffusion WebUI – 使用 AWS 架設



留言
avatar-img
KodingWork的沙龍
4會員
12內容數
KodingWork的沙龍的其他內容
2023/08/28
讀完卡片盒筆記和防彈筆記法後,我發現兩者的核心上有很大的共通點!只在於面向的應用情境不同,以及實現的方式不同。我認為若能掌握其中的底層邏輯,融會貫通其精神,即可不拘泥於工具和實作,演化出更適合自己使用的筆記法。就讓我來分享學到的給大家吧!
Thumbnail
2023/08/28
讀完卡片盒筆記和防彈筆記法後,我發現兩者的核心上有很大的共通點!只在於面向的應用情境不同,以及實現的方式不同。我認為若能掌握其中的底層邏輯,融會貫通其精神,即可不拘泥於工具和實作,演化出更適合自己使用的筆記法。就讓我來分享學到的給大家吧!
Thumbnail
2023/08/10
為何總是存不到錢?為何努力工作卻依然債務滿身?這些問題總是讓人難以找到答案,到底我們該怎麼作才能擺脫這種狀況? 很可惜這些在國民教育中,甚至你的父母都不會教你,但在這本書「讓可愛的錢自動滾進來」卻會一字不漏的傳授給你。 到底這本書說了些什麼?以下是閱讀後,我覺得一定要分享的重點!
Thumbnail
2023/08/10
為何總是存不到錢?為何努力工作卻依然債務滿身?這些問題總是讓人難以找到答案,到底我們該怎麼作才能擺脫這種狀況? 很可惜這些在國民教育中,甚至你的父母都不會教你,但在這本書「讓可愛的錢自動滾進來」卻會一字不漏的傳授給你。 到底這本書說了些什麼?以下是閱讀後,我覺得一定要分享的重點!
Thumbnail
2023/08/07
想讓 Stable Diffusion 算圖更細膩精緻?本文分享兩個實用技巧,分別是 ControlNet Tile Resample,以及 Detail Tweaker LoRA,輕鬆實現細節控制,讓你的圖片從粗糙到精緻,質感大升級!
Thumbnail
2023/08/07
想讓 Stable Diffusion 算圖更細膩精緻?本文分享兩個實用技巧,分別是 ControlNet Tile Resample,以及 Detail Tweaker LoRA,輕鬆實現細節控制,讓你的圖片從粗糙到精緻,質感大升級!
Thumbnail
看更多
你可能也想看
Thumbnail
接續上一篇,我們開始用準備好的訓練素材圖跟規範圖來烘焙我們的高品質LoRA。
Thumbnail
接續上一篇,我們開始用準備好的訓練素材圖跟規範圖來烘焙我們的高品質LoRA。
Thumbnail
關於 SORA 技術原理的圖像式解說,內容從通用型人工智慧到生成運算的原理以及相關的技術研究成果。 提供了使用生成運算方式的 Diffusion Transformer 介紹和進階閱讀的指路。分享 AI 研究領域的開放性和合作精神,以及對視覺產業可能帶來的影響。
Thumbnail
關於 SORA 技術原理的圖像式解說,內容從通用型人工智慧到生成運算的原理以及相關的技術研究成果。 提供了使用生成運算方式的 Diffusion Transformer 介紹和進階閱讀的指路。分享 AI 研究領域的開放性和合作精神,以及對視覺產業可能帶來的影響。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
LoRA 是什麼?為何在 Stable Diffusion 社群討論中常常出現?Prompt 有時看到很奇怪的文字是什麼?本文一次解答上述問題,並用白話文簡介 LoRA 原理,讓大家在操作時更有感覺!
Thumbnail
LoRA 是什麼?為何在 Stable Diffusion 社群討論中常常出現?Prompt 有時看到很奇怪的文字是什麼?本文一次解答上述問題,並用白話文簡介 LoRA 原理,讓大家在操作時更有感覺!
Thumbnail
未來不管是Diffuser還是LLM的微調,都離不開LoRA這項技術,充分理解LoRA的本質是甚麼,CP值特別高。這項技術的理念其實在人工智慧領域行之有年,只是普遍沒有響亮的名字與非常痛的應用場合,在大模型參數量暴增的時刻,重要性被大幅凸顯出來。
Thumbnail
未來不管是Diffuser還是LLM的微調,都離不開LoRA這項技術,充分理解LoRA的本質是甚麼,CP值特別高。這項技術的理念其實在人工智慧領域行之有年,只是普遍沒有響亮的名字與非常痛的應用場合,在大模型參數量暴增的時刻,重要性被大幅凸顯出來。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
前面完成了運行Stable Diffusion圖像模型的繪圖/溝通介面(WebUi)的安裝,在正式進入實際操作前,這邊我們先來分類釐清一下常見的模型有哪些種類以及它的主要功能作用。
Thumbnail
前面完成了運行Stable Diffusion圖像模型的繪圖/溝通介面(WebUi)的安裝,在正式進入實際操作前,這邊我們先來分類釐清一下常見的模型有哪些種類以及它的主要功能作用。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News