好的教科書就有好的人工智慧-DALL-E3

更新 發佈閱讀 2 分鐘

Improving Image Generation with Better Captions

https://cdn.openai.com/papers/dall-e-3.pdf

Published by openAI team

前言:

為了提高文字生成影像的品質,openAI 團隊用了三招:

第一招,利用模型將文字"升取樣",產生出許多描述細節當訓練資料

第二招,用CLIP ViT產生Embeddings,計算Cosine distance

第三招,使用GPT4,對生成結果進行評比。

先來看看放在頭版頁面的生成圖片結果,感受一下DALL-E3的威力!

對細節的極致描述,產生出極致的生成影像結果

對細節的極致描述,產生出極致的生成影像結果

無論肖像畫,雜誌封面,卡通,還是風景畫,都難不倒DALL-E3

無論肖像畫,雜誌封面,卡通,還是風景畫,都難不倒DALL-E3

比較一下文字描述細節帶來的差異:

若要產生與現實有落差的圖片,必須要給予盡可能多的描述,這樣能讓DALL-E3生成正確

若要產生與現實有落差的圖片,必須要給予盡可能多的描述,這樣能讓DALL-E3生成正確

使用GPT4取得詳細圖片描述的方法:

先詳細定位GPT4要扮演的角色,目的,從一個初始簡單描述,教材製作者不斷的利用GPT4把內容加進去

先詳細定位GPT4要扮演的角色,目的,從一個初始簡單描述,教材製作者不斷的利用GPT4把內容加進去

使用Cosine distance來衡量生成效果:

把CLIP ViT對ground true 圖片做編碼,然後比對DALLE3生成圖片用同樣CLIP ViT做編碼,兩者的Cosine distance,DALLE3生成的圖片與Ground True越相似,得到的分數越低。

普遍機器學習的學生,相信對於這公式不陌生

普遍機器學習的學生,相信對於這公式不陌生

使用GPT4來評量生成圖片與文字相不相符:

GPT4 可以拿來當第三方的裁判,判斷其他生成式AI的表現如何

GPT4 可以拿來當第三方的裁判,判斷其他生成式AI的表現如何

評估結果完勝:

DALL-E3 在Cosine similarity 上面有顯著的增加

DALL-E3 在Cosine similarity 上面有顯著的增加

引用:


如果你對 AI 充滿熱情,學習上又不想浪費時間,我能夠以過來人的經驗給你不少想法,歡迎在Facebook群裡面留言。

如果想要用Zoom直接交談,為你直接解惑的,也可以點以下連結預約時間 (1小時)

 https://calendly.com/universe_ai/free_appointment

留言
avatar-img
無限智慧學院的沙龍
97會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
2024/06/13
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
Thumbnail
2024/06/13
預計量子AI計算會在2032年左右來到,在這之前,我們還有充足的時間可以逐步去學習量子計算與演算法,讓我們按部就班,持續前進,做輕鬆無負擔的超前學習 !
Thumbnail
2024/06/09
介紹這次Computex的兩大主題,AI Server與AI PC,展現了台灣廠商強大的供應能力,隨處可見黃仁勳的簽名,展示了美國頂尖企業與台灣製造那層密不可分的夥伴關係,就讓我們一起來探索,這些尖端科技產品。
Thumbnail
2024/06/09
介紹這次Computex的兩大主題,AI Server與AI PC,展現了台灣廠商強大的供應能力,隨處可見黃仁勳的簽名,展示了美國頂尖企業與台灣製造那層密不可分的夥伴關係,就讓我們一起來探索,這些尖端科技產品。
Thumbnail
2024/02/28
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
2024/02/28
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
看更多
你可能也想看
Thumbnail
在某次chatgpt 4更新後(Chatgpt 4需要付費才能使用) chatgpt新增了AI繪圖的功能(使用DALL-E方式生成) 🥳🥳🥳 但是我自己是用一段時間後,發現到一些疑點和心得:
Thumbnail
在某次chatgpt 4更新後(Chatgpt 4需要付費才能使用) chatgpt新增了AI繪圖的功能(使用DALL-E方式生成) 🥳🥳🥳 但是我自己是用一段時間後,發現到一些疑點和心得:
Thumbnail
我看很多人都比較在意用GPT產生一些高品質圖片 但是使用DALLE3總是會有一些版權限制 網路上的解決方案都很差 無法產生完整一樣的圖片 其實這些都是一個簡單的思路轉換可以搞定的 我還是強烈建議大家在使用AI的過程中 千萬不要被自己的思想限制了 解決問題的創造力是我們在AI時代唯一最寶
Thumbnail
我看很多人都比較在意用GPT產生一些高品質圖片 但是使用DALLE3總是會有一些版權限制 網路上的解決方案都很差 無法產生完整一樣的圖片 其實這些都是一個簡單的思路轉換可以搞定的 我還是強烈建議大家在使用AI的過程中 千萬不要被自己的思想限制了 解決問題的創造力是我們在AI時代唯一最寶
Thumbnail
DALL·E 3是OpenAI近期推出的繪圖模型,相對於舊版可以說是進步的非常非常多。 目前在微軟的bing與chatGPT Plus中都可以試用DALL·E 3,這篇文章除了簡介DALL·E 3的進步與特性之外,也比較在bing與chatGPT Plus這兩個平台中使用DALL·E 3有何不同?有
Thumbnail
DALL·E 3是OpenAI近期推出的繪圖模型,相對於舊版可以說是進步的非常非常多。 目前在微軟的bing與chatGPT Plus中都可以試用DALL·E 3,這篇文章除了簡介DALL·E 3的進步與特性之外,也比較在bing與chatGPT Plus這兩個平台中使用DALL·E 3有何不同?有
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
從去年2/18開始使用ChatGPT以來,我一直沒有加入任何ChatGPT或AI相關討論社團,原因是不想被「影響」,希望訓練、依靠自己的「腦洞」進行各種創作與測試。 直到昨天第一次註冊、使用Bing DALL-E 3,很快吸收了大量同好分享的指令,融合自己摸索出來的經驗,開始進行更多類型的創作。
Thumbnail
從去年2/18開始使用ChatGPT以來,我一直沒有加入任何ChatGPT或AI相關討論社團,原因是不想被「影響」,希望訓練、依靠自己的「腦洞」進行各種創作與測試。 直到昨天第一次註冊、使用Bing DALL-E 3,很快吸收了大量同好分享的指令,融合自己摸索出來的經驗,開始進行更多類型的創作。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
這篇文章介紹了Bing產生的圖片在唯美氣質風方面的表現,並探討了DALL E-3在語言解析和生成圖方面的強大能力。文章展望了未來AI在繪圖方面的潛力和發展方向。
Thumbnail
這篇文章介紹了Bing產生的圖片在唯美氣質風方面的表現,並探討了DALL E-3在語言解析和生成圖方面的強大能力。文章展望了未來AI在繪圖方面的潛力和發展方向。
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
操作很簡單 使用電腦 開啟GPT-4,選擇DALLE.3 複製這段指令進去 注意:這條指令只針對chatgpt 的PLUS會員,同時已經可以使用DALLE.3的使用者。 ##圖片提示字產生器 版本:v0.11 作者:秒懂AI提問指令 {任務}你將扮演圖片提示詞產生器,當我提供簡短{主
Thumbnail
操作很簡單 使用電腦 開啟GPT-4,選擇DALLE.3 複製這段指令進去 注意:這條指令只針對chatgpt 的PLUS會員,同時已經可以使用DALLE.3的使用者。 ##圖片提示字產生器 版本:v0.11 作者:秒懂AI提問指令 {任務}你將扮演圖片提示詞產生器,當我提供簡短{主
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News