Google AI 新模型 Nano Banana 多圖融合換裝、角色一致性讓創作更自由

更新於 發佈於 閱讀時間約 5 分鐘

Google AI Studio網址:https://aistudio.google.com/prompts/new_chat

Google於2025年8月25日正式發布的最新一代圖像生成與編輯模型 Gemini 2.5 Flash Image 代號「nano-banana」。從底層就設計為多模態模型,具備深度語言理解能力,能夠在單一步驟中同時處理文字和圖像輸入。因此,輸入一段敘述性的段落會比一堆斷斷續續的字詞能生成更好圖像。

特點:

  • 對話式圖像編輯
    通過自然語言指令,就可以進行精確的目標編輯,如模糊背景、移除物件、改變姿勢或為黑白照片上色。
  • 多圖像融合技術
    可以參考多張輸入圖像融合生成一張視覺作品。
  • 角色與風格一致性
    官方敘述模型能夠維持角色、物件或風格在多個提示和圖像間的一致性,但個人感受對於熟悉的臉孔,仍然還是會感到不像,仍需要多加嘗試。技術上可以相比過去使用 Midjourney 為了「角色一致性」而使用 --cref --cw 來參照生成。

將生活照轉換成韓式形象照

Prompt: 「人物穿著 深藍色修身版西裝外套 搭配 白色襯衫,展現休閒西裝風格。拍攝場景為 攝影棚,背景為 灰色中性色調,燈光柔和均勻,營造自然專業的氛圍。人物 略微側身但仍直視鏡頭,保持自信、專業又親和的神態。」

Google AI Studio 提供多項進階設定,包括 Temperature、Top P 與 Safety settings 等。Temperature 負責控制生成內容的隨機性,高數值(如 0.95)能帶來更多創意與變化,降低至 0.7–0.8 則可提升人像的一致性;Top P 決定模型選字的多樣化範圍,數值越高輸出越豐富,越低則結果更集中、可預測;而 Safety settings 用於過濾不當內容,建議維持預設即可,不會影響專業人像處理,同時確保輸出安全。

raw-image

局部修圖

raw-image

Prompt: 「依照提供的男性人物角色照片,來生成在電腦螢幕中的有單色3D人物建模線稿,桌上有一個男性人物的塑膠玩具盒、以及彩色如照片男性人物一樣的塑膠立體雕塑模型、模型工具。背景是動漫公仔玩具、日式漫畫的房間。」

raw-image

融合多張圖片

Prompt: 「請將這些圖片融合成一張圖,每個物件和角色都不能缺漏。」

raw-image
raw-image

可依照草圖來生成

Prompt: 「根據動作草圖來生成兩隻貓互相打鬥,並呈現賽博龐克風格。」像是手繪火柴人就能生成指定動作。

raw-image
raw-image

指定替換紅框物件

Prompt: 「替換掉紅框中的桌子。」

raw-image

數學推理能力

Prompt: 「請補上∠B 的角度。」

raw-image
raw-image



技術規格與定價

模型規格

  • 輸入支援:文字字串、圖像、音頻和視頻文件,具備1M token上下文窗口
  • 輸出能力:圖像輸出,32K token輸出限制
  • 架構:稀疏混合專家(MoE)變換器,原生多模態支援
  • 圖像解析度:支援1024×1024像素圖像生成

定價:

每百萬輸出token收費30美元,每張圖像約0.039美元(基於每張圖像1290個輸出token)相比OpenAI的DALL-E 3便宜約40%

免費額度:

  • 每日500個請求
  • 每分鐘250,000個token
  • 完全免費使用,無地理限制

使用心得:

雖然是免費使用圖片生成,仍需要避免直接拿去商業使用,即便去除右小角可見浮水印,仍有隱藏的數位浮水印。免費32K的額度來生活試玩用途,或生成文章附圖已經非常夠用。Nano-Banana 對於語言的理解程度的確更好,既便一些細節沒有框選,也能夠理解並完成修改。細緻度也有提升,但個人仍覺得 Midjourney 細膩度與圖像解析度更強大些。

參考資料:

留言
avatar-img
留言分享你的想法!
avatar-img
林位青的沙龍
26會員
47內容數
林位青的沙龍的其他內容
2025/08/20
MGX 是一個多智能代理 AI 平臺,讓使用者能透過自然語言建立網站、部落格、遊戲等,無需編寫程式碼。它基於開源項目 MetaGPT,模擬軟體公司內不同角色的協同工作流程。MGX 提供兩種模式:工程師模式和團隊模式(模擬完整開發流程)。其特色包括接近人類可理解的專案流程、高度的可擴展性和靈活性。
Thumbnail
2025/08/20
MGX 是一個多智能代理 AI 平臺,讓使用者能透過自然語言建立網站、部落格、遊戲等,無需編寫程式碼。它基於開源項目 MetaGPT,模擬軟體公司內不同角色的協同工作流程。MGX 提供兩種模式:工程師模式和團隊模式(模擬完整開發流程)。其特色包括接近人類可理解的專案流程、高度的可擴展性和靈活性。
Thumbnail
2025/08/12
Mermaid是一個基於文字的圖表繪製工具,使用簡單的語法就能生成各種圖表,例如流程圖、時序圖、甘特圖等。它支援多個平臺,包括GitHub、Notion、VS Code等,方便使用者在文件、筆記、程式碼專案中嵌入可視化內容。本文將介紹Mermaid的使用步驟、應用場景和一些進階運用技巧。
Thumbnail
2025/08/12
Mermaid是一個基於文字的圖表繪製工具,使用簡單的語法就能生成各種圖表,例如流程圖、時序圖、甘特圖等。它支援多個平臺,包括GitHub、Notion、VS Code等,方便使用者在文件、筆記、程式碼專案中嵌入可視化內容。本文將介紹Mermaid的使用步驟、應用場景和一些進階運用技巧。
Thumbnail
2025/08/06
Gemini 推出 Storybook 功能,可根據提示詞生成圖文故事書,支援多種風格和語言,並可朗讀。此工具不僅能生成故事,代表 AI 應用更具個人化創作與參與式體驗。Storybook 可用於個人回憶創作、協助兒童理解複雜概念、親子共讀等。商業品牌亦可藉此進行品牌敘事式行銷,創造專屬故事。
Thumbnail
2025/08/06
Gemini 推出 Storybook 功能,可根據提示詞生成圖文故事書,支援多種風格和語言,並可朗讀。此工具不僅能生成故事,代表 AI 應用更具個人化創作與參與式體驗。Storybook 可用於個人回憶創作、協助兒童理解複雜概念、親子共讀等。商業品牌亦可藉此進行品牌敘事式行銷,創造專屬故事。
Thumbnail
看更多
你可能也想看
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
隨著 AI 技術的進步,Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔,還能幫助你建立專屬知識庫。今天,我將介紹 NotebookLM 是什麼、如何使用它,以及在三種不同情境中的應用方法。
Thumbnail
隨著 AI 技術的進步,Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔,還能幫助你建立專屬知識庫。今天,我將介紹 NotebookLM 是什麼、如何使用它,以及在三種不同情境中的應用方法。
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現,並對比了它們在簡單問題、創作文本和回應短文等方面的效果。
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News