AI繪圖-Stable Diffusion-前言

更新 發佈閱讀 7 分鐘
vocus|新世代的創作平台

從2022年AI繪圖迅速掘起,到如今一年多的期間,各平台相互競爭不斷快速進化,幾個主流AI繪圖平台都發展出各自的優勢特色(Adobe Firefly、Midjourney,Stable Diffusion、Leonardo.Ai)。而其中Stable Diffusion的免費開源以及更高的操控自由度是我目前最喜歡使用的AI繪圖工具。


Stable Diffusion 簡介

Stable Diffusion是由Stability AI所訓練開發並且開源提供免費使用的圖像模型。可透過文字轉換為圖像(文生圖,txt2img),也可以利用現成圖像/搭配輔助文字轉換成其他圖像(圖生圖,img2img)。

Stable Diffusion是一種擴散模型(diffusion model)的變體,叫做「潛在擴散模型」(latent diffusion model; LDM)…..→對偏學術理論這部分想深入研究的可再去Google找相關論文來看。或是參考下面影片講解關於Stabble Diffusion 背後運作生成的原理。


對於長期只和圖像打交道的我來說,要去閱讀這些模型背後的專業術語與原理程式實在很痛苦,每個字我都認得,但組合在一起後就又似懂非懂霧煞煞@@。最後我只好用自己理解的簡化方式去架構一個輪廓印象,方便後續實際操作生成圖像時,知道各參數的調整是大致對應/介入到圖像生成的哪個步驟階段,以便掌握出圖方向能盡量如自己所預期就好 :

就把Stable Diffusion當成一個畫家,只是它的腦袋對於學習圖像繪畫的方式和真人不同。它會把每張圖像反覆進行”加噪聲”和”去噪聲”的過程(每一步加噪/去噪都讓圖片只比上一步模糊/清晰一點點,讓學習過程中對原圖的畫法/樣貌都能”有跡可循”,形成”技巧/經驗”),並且同時搭配上圖片對應的文字資訊(Caption),進而學會特定物件主體/風格的特徵和畫法。

vocus|新世代的創作平台

就這樣餵給它動輒數十億張起跳包山包海的圖片反覆同樣動作學習後,就成為可供我們進行AI繪圖使用的圖像模型(一個掌握了數十億張各類圖片主題內容/風格特徵畫技的畫家)。

有了這個圖像模型(畫家)後,當我們要求它畫一張xx主題的圖時,給它一段文字指令/或是文字指令+參考圖片,它就會根據指令將隨機產生佈滿噪聲的圖一步步Denoising(去噪)成像。而Stable Diffusioin操作介面中的各式參數(ex. Clip skip、CFG Scale、Denoising strength…)或外掛(ex. ControlNet…),分別就在成像的過程中介入到對應的階段進行加強/減弱/指引/限制…等,讓生成的圖像往我們需要的構圖/方向/…去產出。

vocus|新世代的創作平台


Stable Diffusion 優點

  • 開源免費 :
    Stable Diffusion免費。而相較於其它目前幾個熱門的AI繪圖工具來說 :
    Midjourney最低10美元/月起跳(10美元大約只能畫200張圖),AI繪圖很需要不斷反復嚐試出圖,一個月200張實在是非常不夠用。認真要玩AI繪圖的話,至少都會需要訂閱30美元/月以上的方案才夠用。
    Leonardo.Ai每日免費點數額度有限並且有些進階功能需付費才能使用。它提供了一個讓剛接觸AI繪圖以及對軟體程式安裝等基礎完全不懂的人來說,相對比較好快速上手的操作介面,但它在圖像生成的控制變化自由度上比起Stable Diffusiion終究還是大打折扣。
  • 豐富強大的擴充外掛資源 :
    因為是開源軟體,網路上有眾多神人開發出的各種外掛附加擴充功能,比如最有名的ControlNet,讓你除了文字描述以外,能夠有其它輔助方法去控制生成圖像的構圖/姿勢/物體空間前後關係…等,畢竟很多時後人與AI之間,光靠語言文字溝通,最終成果還是會有一定的差距。其它還有高清放大、影片生成、工作排程自動跑圖/算圖、影像去背……等,開源社群開發新應用外掛功能的速度都是比單一公司平台的開發更新來得快得多。
  • 可本地部署 :
    與Midjourney或是其它AI繪圖平台是透過Discord對話或是網站介面操作不同,Stable Diffusion可以在本地部署,簡單來說就是可以把AI繪圖軟體/模型安裝在自己的電腦主機裡。如此一來,即使是在沒有網路的時後也能使用,並且能有更好的安全隱私性。不用擔心你產出的圖或是上傳用來img2img的圖也許會在你所不知道的地方被服務平台拿來濫用。比如Midjourney,仔細看他們的使用條款裡,Rights You give to Midjourney這段。
    只能說,Midjourney兩頭賺,訂閱月費收一筆,然後你產出來的圖他們是有權可以任意使用,不單單只是回吐到模型裡當訓練材料而已。
vocus|新世代的創作平台
  • 對生成的內容無限制審核 :
    大多AI繪圖平台都會對一些特定”不適當/不健康(NSFW)”的關鍵字進行管制,無法生成。而使用Stable Diffusion則就沒有這方面的限制,完全自由。

 

Stable Diffusion 缺點

  • 硬體設備門檻較高
    不像其它AI繪圖平台,硬體設備上沒什麼要求,只需要一台可以連上網的電腦就能開始AI繪圖。想要安裝運行Stable Diffusion,電腦配備一張獨立顯卡是必需的,而顯卡規格的要求是顯存(VRAM)愈大愈好,基本最好有8G以上,跑現在普遍使用的1.5版本還算夠用(網上看4~6G勉強也能跑得動,但只適合拿來生成小圖)。前幾天剛新發佈的Stable Diffusion XL 1.0版本則是最低需要8G以上,理想最好有12G以上。一分錢一分貨,下次換電腦時我寧可一次直上最高規格的顯卡,多花點錢提高算圖效率省下來的時間絕對是划算的。
    如果不想升級電腦設備的話,也可租用雲端伺服器(ex. Google Colab)來進行安裝與運算處理。如果是初期想試看看AI繪圖的話可以這麼做,但一樣要花錢,認真要常使用AI繪圖的話,長期下來,買一台能運行的電腦主機來用還是比較理想的。
  • 初期安裝使用/學習門檻較高
    在安裝使用上,因為是開源軟體,網路上資源豐富多元的同時,對於沒有程式相關基礎的人來說,反而過於雜亂無章,會有理不清頭緒的問題。沒有一個基礎框架的概念,單純一味參照網上各種教學一直下載擴充,常常就是一出現相衝突的bug時就兩眼一摸黑無從下手,最終只能整個重新安裝。
    在學習門檻上也因為Stable Diffusion除了文字描述外,另外還眾多可以自由調整控制模型生圖結果的參數與外掛,因此初期也就需要多花些時間學習了解所有參數背後所代表的義意/對出圖效果會有怎樣的影響之後,才能生成出相對穩定品質的圖像。

 

Stable Diffusion 商業/變現應用

如果只把AI繪圖當玩具刷美圖在社群平台上自嗨實在太浪費了,基於Stable Diffusion目前比起其他繪圖平台對圖像生成有更高的可控性(未來在精準度上也會愈來愈精進),讓它具備除了提供創意發想/生成美圖以外,有更實際的商業/變現應用。

  • 對電商業者來說,產品設計、定制虛擬模特、產品上身換裝商品照….等。
  • 對繪畫/插畫師來說,不管是初期的提供創意、最後線稿上色(不管是2D、2.5D還是3D,水彩還是油畫)節省時間效率,你只要把心力放在審美、微調修改、方向掌控的統合就好。
  • 對室內建築設計相關的從業人員,呈現給客戶提案的視覺圖不管你要怎樣來來回回修改,很快都能依需求快速出圖進行溝通。
  • 又比如像我這樣的圖庫供圖者/自由業創作,甚至原本與這專業不相關的人,也可以利用AI繪圖來產生素材圖或是其它各種創作來販售 :  Line 貼圖、線上Print on Demand產品、Amazon上自助出版童書繪本…..。
  • AI換臉…..
  • ………….
  • ………….

總之,各行各業,任何人都可以從中找到能應用獲利的地方,就看你有沒有心去思考、發掘了。

留言
avatar-img
店小二DianXiaoEr的沙龍
88會員
287內容數
記錄店小二建立網賺被動收入歷程、自我學習成長以及各類財富自由資訊的分享專區。
2023/09/21
高保真圖像放大??超高清無損?滿滿的細節? – StableSR…….
Thumbnail
2023/09/21
高保真圖像放大??超高清無損?滿滿的細節? – StableSR…….
Thumbnail
2023/09/21
由於現有顯卡性能限制,想要在圖生圖裡重繪放大一張圖到4k以上的尺寸就得要借用各種分格繪圖再重拼接成大圖的方式,無法一次生成。之前試過大家很推崇的Ultimate SD upscale,但對於我要重繪放大的”真人寫實照片”類型的圖來說,一直出現各種問題........
Thumbnail
2023/09/21
由於現有顯卡性能限制,想要在圖生圖裡重繪放大一張圖到4k以上的尺寸就得要借用各種分格繪圖再重拼接成大圖的方式,無法一次生成。之前試過大家很推崇的Ultimate SD upscale,但對於我要重繪放大的”真人寫實照片”類型的圖來說,一直出現各種問題........
Thumbnail
2023/09/18
關於Tile模型,在網路上普遍的教學說法就是它可以”增加畫面細節”、”高清修復放大”,有多神多好用,用了它會讓原圖畫面變更細緻/精緻….等等。但一開始看了很多Youtube上對於tile的教學,我整個印象就是沒能有一個貫通的邏輯性有很明確的指出Tile到底對SD起到的約束/影響是什麼.....
Thumbnail
2023/09/18
關於Tile模型,在網路上普遍的教學說法就是它可以”增加畫面細節”、”高清修復放大”,有多神多好用,用了它會讓原圖畫面變更細緻/精緻….等等。但一開始看了很多Youtube上對於tile的教學,我整個印象就是沒能有一個貫通的邏輯性有很明確的指出Tile到底對SD起到的約束/影響是什麼.....
Thumbnail
看更多
你可能也想看
Thumbnail
LoRA 是什麼?為何在 Stable Diffusion 社群討論中常常出現?Prompt 有時看到很奇怪的文字是什麼?本文一次解答上述問題,並用白話文簡介 LoRA 原理,讓大家在操作時更有感覺!
Thumbnail
LoRA 是什麼?為何在 Stable Diffusion 社群討論中常常出現?Prompt 有時看到很奇怪的文字是什麼?本文一次解答上述問題,並用白話文簡介 LoRA 原理,讓大家在操作時更有感覺!
Thumbnail
北京清華大學改進了傳統Stable Diffusion (SD) 文生圖的加速算法,讓SD這項技術,可以在筆電達到即時(Real Time)運算等級,讓我們一起來了解這項技術,期許未來能在各種應用上使用,或是看到源碼也不陌生。
Thumbnail
北京清華大學改進了傳統Stable Diffusion (SD) 文生圖的加速算法,讓SD這項技術,可以在筆電達到即時(Real Time)運算等級,讓我們一起來了解這項技術,期許未來能在各種應用上使用,或是看到源碼也不陌生。
Thumbnail
本文下方連結的文章,利用Stable Diffusion生成512 * 512大小的圖片。 輸入的文字是 dog flying in space,此模型需輸入英文句子才會準確生成。 參考文獻 連結該作者在Hugging Face公開的模型去做使用。 本文是在Colab上執行。
Thumbnail
本文下方連結的文章,利用Stable Diffusion生成512 * 512大小的圖片。 輸入的文字是 dog flying in space,此模型需輸入英文句子才會準確生成。 參考文獻 連結該作者在Hugging Face公開的模型去做使用。 本文是在Colab上執行。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
今天我們來看一個最近討論度非常高的AI繪圖新技術,一個讓你可以在幾秒鐘內看到成品,不論是訓練還是生成都大大降低了資源成本的技術。※影片中有誤的地方補充在CC字幕,本篇內容也已修正。
Thumbnail
今天我們來看一個最近討論度非常高的AI繪圖新技術,一個讓你可以在幾秒鐘內看到成品,不論是訓練還是生成都大大降低了資源成本的技術。※影片中有誤的地方補充在CC字幕,本篇內容也已修正。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
前面完成了運行Stable Diffusion圖像模型的繪圖/溝通介面(WebUi)的安裝,在正式進入實際操作前,這邊我們先來分類釐清一下常見的模型有哪些種類以及它的主要功能作用。
Thumbnail
前面完成了運行Stable Diffusion圖像模型的繪圖/溝通介面(WebUi)的安裝,在正式進入實際操作前,這邊我們先來分類釐清一下常見的模型有哪些種類以及它的主要功能作用。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
Thumbnail
Stability AI在圖片/影片/聲音生成領域貢獻了不少心力,近期提出了更加高效率的對抗生成蒸餾方法,只需進行一步計算,便能打敗LCM需要4步計算的結果,來看看具體是如何做到的。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News