Google AI 新模型 Nano Banana 多圖融合換裝、角色一致性讓創作更自由

2025/09/20 更新2025/08/31 發佈閱讀 6 分鐘

Google AI Studio網址：https://aistudio.google.com/prompts/new_chat

Google於2025年8月25日正式發布的最新一代圖像生成與編輯模型 Gemini 2.5 Flash Image 代號「nano-banana」。從底層就設計為多模態模型，具備深度語言理解能力，能夠在單一步驟中同時處理文字和圖像輸入。因此，輸入一段敘述性的段落會比一堆斷斷續續的字詞能生成更好圖像。

特點：

對話式圖像編輯
通過自然語言指令，就可以進行精確的目標編輯，如模糊背景、移除物件、改變姿勢或為黑白照片上色。
多圖像融合技術
可以參考多張輸入圖像融合生成一張視覺作品。
角色與風格一致性
官方敘述模型能夠維持角色、物件或風格在多個提示和圖像間的一致性，但個人感受對於熟悉的臉孔，仍然還是會感到不像，仍需要多加嘗試。技術上可以相比過去使用 Midjourney 為了「角色一致性」而使用 --cref --cw 來參照生成。

1.將生活照轉換成韓式形象照

Prompt: 「人物穿著深藍色修身版西裝外套搭配白色襯衫，展現休閒西裝風格。拍攝場景為攝影棚，背景為灰色中性色調，燈光柔和均勻，營造自然專業的氛圍。人物略微側身但仍直視鏡頭，保持自信、專業又親和的神態。」

Google AI Studio 提供多項進階設定，包括 Temperature、Top P 與 Safety settings 等。Temperature 負責控制生成內容的隨機性，高數值（如 0.95）能帶來更多創意與變化，降低至 0.7–0.8 則可提升人像的一致性；Top P 決定模型選字的多樣化範圍，數值越高輸出越豐富，越低則結果更集中、可預測；而 Safety settings 用於過濾不當內容，建議維持預設即可，不會影響專業人像處理，同時確保輸出安全。

2.局部修圖：替換衣物

Prompt: 「依照提供的男性人物角色照片，來生成在電腦螢幕中的有單色3D人物建模線稿，桌上有一個男性人物的塑膠玩具盒、以及彩色如照片男性人物一樣的塑膠立體雕塑模型、模型工具。背景是動漫公仔玩具、日式漫畫的房間。」

Prompt: a 1/7 scale commercial figurine of the character in the picture was drawn, in a realistic style and in a real environment. The figurine was placed on a computer desk with a round transparent acrylic base with no text on it. The content on the computer screen was the brush modeling process of the figurine, and next to the computer screen was a BANDAI-style toy box with the original painting printed on it.

3.融合多張圖片

Prompt: 「請將這些圖片融合成一張圖，每個物件和角色都不能缺漏。」

4.可依照草圖來生成

Prompt: 「根據動作草圖來生成兩隻貓互相打鬥，並呈現賽博龐克風格。」像是手繪火柴人就能生成指定動作。

5.指定替換紅框物件

Prompt: 「替換掉紅框中的桌子。」

6.數學推理能力

Prompt: 「請補上∠B 的角度。」

7.指定視覺效果與尺寸

Prompt: 「極簡主義美食照片，[1080x1080] 一瓶可口可樂經典玻璃曲線瓶站立在輕盈的啞光錶面上，玻璃爆炸破裂，玻璃與液體正在逐漸轉變為微小粒子，碎裂成細小的、漂浮的冰塊和液體水珠，向外漂移，每一塊冰塊都展現出物體的紋理、反射材質和顏色。玻璃瓶形體不再完整，可口可樂液體如爆炸般噴散開來。攝影棚燈光，柔和逼真的陰影，淺景深，雅緻的透視和構圖，超現實主義的細節，時尚的幾何抽象，高分辨率，電影般的特寫鏡頭。」

▍技術規格與定價

模型規格

輸入支援：文字字串、圖像、音頻和視頻文件，具備1M token上下文窗口
輸出能力：圖像輸出，32K token輸出限制
架構：稀疏混合專家(MoE)變換器，原生多模態支援
圖像解析度：支援1024×1024像素圖像生成

定價：

每百萬輸出token收費30美元，每張圖像約0.039美元（基於每張圖像1290個輸出token）相比OpenAI的DALL-E 3便宜約40%

免費額度：

每日500個請求
每分鐘250,000個token
完全免費使用，無地理限制

▍使用心得：

雖然是免費使用圖片生成，仍需要避免直接拿去商業使用，即便去除右小角可見浮水印，仍有隱藏的數位浮水印。免費32K的額度來生活試玩用途，或生成文章附圖已經非常夠用。Nano-Banana 對於語言的理解程度的確更好，既便一些細節沒有框選，也能夠理解並完成修改。細緻度也有提升，但個人仍覺得 Midjourney 細膩度與圖像解析度更強大些。

參考資料：

林位青的沙龍🤖 AI 設計工具🖼️ 圖像影音

留言

林位青的沙龍

276會員

88內容數

林位青的沙龍的其他內容

2025/08/20

讓全年無休的 AI 團隊為打造你的網站和應用程式：MetaGPT X (MGX)

MGX 是一個多智能代理 AI 平臺，讓使用者能透過自然語言建立網站、部落格、遊戲等，無需編寫程式碼。它基於開源項目 MetaGPT，模擬軟體公司內不同角色的協同工作流程。MGX 提供兩種模式：工程師模式和團隊模式（模擬完整開發流程）。其特色包括接近人類可理解的專案流程、高度的可擴展性和靈活性。

2025/08/20

讓全年無休的 AI 團隊為打造你的網站和應用程式：MetaGPT X (MGX)

2025/08/12

用文字就能畫圖！Mermaid 快速生成各種圖表，心智圖、流程圖、甘特圖...

Mermaid是一個基於文字的圖表繪製工具，使用簡單的語法就能生成各種圖表，例如流程圖、時序圖、甘特圖等。它支援多個平臺，包括GitHub、Notion、VS Code等，方便使用者在文件、筆記、程式碼專案中嵌入可視化內容。本文將介紹Mermaid的使用步驟、應用場景和一些進階運用技巧。

2025/08/12

用文字就能畫圖！Mermaid 快速生成各種圖表，心智圖、流程圖、甘特圖...

2025/08/06

AI 繪本創作新工具，改變了我們與內容互動方式：Gemini Storybook

Gemini 推出 Storybook 功能，可根據提示詞生成圖文故事書，支援多種風格和語言，並可朗讀。此工具不僅能生成故事，代表 AI 應用更具個人化創作與參與式體驗。Storybook 可用於個人回憶創作、協助兒童理解複雜概念、親子共讀等。商業品牌亦可藉此進行品牌敘事式行銷，創造專屬故事。

2025/08/06

AI 繪本創作新工具，改變了我們與內容互動方式：Gemini Storybook

#AI 的其他內容

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

剝洋蔥

Claude Cowork：我從零開始設計一個 5 人 Agent 幕僚團隊的思路

賴仕涵的思考王國

💖當「我的女朋友叫GEMINI」成為公開認同：台視【熱線追蹤】觀後感

你可能也想看

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

創作不只是個人戰，在 vocus ，也可以是一場集體冒險、組隊升級。最具代表性的創作者社群「vocus 野格團」，現在有了更強大的新夥伴加入！除了大家熟悉的「官方主題沙龍」，這次我們徵召了 8 位領域各異的「個人主題專家」，將再度嘗試創作的各種可能，和格友們激發出更多未知的火花。

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

新成員登場 ✨「野格團」持續召募中，歡迎加入創作的集體派對 .ᐟ.ᐟ.ᐟ

#創作#創作者推薦#靈感

2026/03/24

方格子 vocus 官方沙龍

【野格團開箱｜下篇】新血全線集結！5 題靈魂拷問，解鎖「個人主題專家」的創作原力💫

看完上篇 4 位新成員的靈魂拷問，是不是意猶未盡？別急，野格團新血的驚喜正接著登場！今天下篇接力的另外 4 位「個人主題專家」，戰力同樣驚人──領域從旅行美食、運動、商業投資到自我成長；這些人如何維持長跑般的創作動力？在爆紅的文章背後，又藏著哪些不為人知的洞察？5 大靈魂拷問繼續出擊

#創作#創作者推薦#靈感

2026/03/25

方格子 vocus 官方沙龍

【野格團開箱｜下篇】新血全線集結！5 題靈魂拷問，解鎖「個人主題專家」的創作原力💫

#創作#創作者推薦#靈感

2026/03/25

仁和的論文整理

探索41個讓你驚豔的AI影像生成模型論文

本文探討了影像生成模型的多種應用，包括文字、圖像和聲音到影片的生成，涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究，分析影像生成技術的未來趨勢與挑戰，為讀者提供全面的理解與啟示。

2024/08/13

2024/08/13

OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」，由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布，該引擎能結合來自網路的即時資訊，讓使用者像與 ChatGPT 交談一樣搜尋。透過 SearchGPT，用戶能以自然語言提出問題（與使用 ChatGPT 交談方式相同

2024/07/26

Baozilla, Let's go!

20240726_TechNEws

2024/07/26

窩 World

NotebookLM：Google 結合 AI 最新推出的筆記本工具，讓你生成問題、快速摘要，以及建立專屬知識庫

隨著 AI 技術的進步，Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔，還能幫助你建立專屬知識庫。今天，我將介紹 NotebookLM 是什麼、如何使用它，以及在三種不同情境中的應用方法。

#科技#學習#數位

2024/07/03

窩 World

NotebookLM：Google 結合 AI 最新推出的筆記本工具，讓你生成問題、快速摘要，以及建立專屬知識庫

#科技#學習#數位

2024/07/03

EC3

【 AI繪圖使用心得】

什麼是ＡＩ？ Artificial Intellgent ㄧ個數位大腦電腦新物種模擬人類的腦神經整合２Ｄ與３Ｄ的繪圖視覺在Bing 裡面基本上分為這幾個類型: 逼真的３Ｄ動畫動畫虛擬人偶展示攝影可愛貼圖二為圖例電腦科幻虛擬人偶公司標誌卡通電影海

2024/06/17

2024/06/17

AI -Gemini : 我鼓勵你探索自己的答案，並找到讓你感到充實和意義的東西。我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來？” “現在發生的事情的品質如何？” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型，在大量文字和程式碼...

2024/05/24

2024/05/24

Google Gemini 對比 ChatGPT：AI助手評測

這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現，並對比了它們在簡單問題、創作文本和回應短文等方面的效果。

#ChatGPT#AI#人工智慧

2024/04/30

樂子

Google Gemini 對比 ChatGPT：AI助手評測

這篇文章評測了Google Gemini和ChatGPT兩個AI助手工具的表現，並對比了它們在簡單問題、創作文本和回應短文等方面的效果。

#ChatGPT#AI#人工智慧

2024/04/30

大勢男寫手的沙龍

在香港如何使用 Google Gemini？

什麼是 Google Gemini？ Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族，繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布，包括 Gemini Ultra、Pro 和 Nano，旨在超越 OpenAI 的 GPT-4

#AI#科技

2024/04/19

大勢男寫手的沙龍

在香港如何使用 Google Gemini？

#AI#科技

2024/04/19

Homeless Cosmopolitans' 實驗沙龍

【科學科技一科燙手報 Mk.2】：Google新發表的開源AI模型Gemma | 燙手度4天

大部分的人都知道Open AI的ChatGPT，部份的人知道Perplexity一類的生成式AI模型，還有一些人知道Google研發的生成式AI模型：Gemini (意思是拉丁文的雙生)。但幾小時前開放給開發者及研究者的開源AI模型Gemma（意思是拉丁文珍貴的石頭）大概沒什麼知道，

#Gemma#Google#AI

2024/02/25

Homeless Cosmopolitans' 實驗沙龍

【科學科技一科燙手報 Mk.2】：Google新發表的開源AI模型Gemma | 燙手度4天

#Gemma#Google#AI

2024/02/25

手哥科科

Google 發表新 AI 模型 Gemini 1.5，提供更大的「腦容量」和效率

今天 Google 發表了最新的 AI 模型 Gemini 1.5，不只提高模型訓練和服務效率，而且擁有更強大的理解力，每次能處理的 token 長度更是一口氣突破 100 萬大關，是競爭對手 GPT-4 的 7.8 倍 (GPT-4 目前只提供最長 32K 長度)，可以處理更大量的資訊，也擁有更大

#Google#模型#GPT-4

2024/02/17