前陣子在 AI 圈內一個名為「Nano Banana」的神秘模型,在專門評測 AI 模型的競技場 LMArena 上進行匿名測試,並因為出色的表現引起廣泛討論。許多人都在猜測這究竟是哪家公司的作品,而謎底終於揭曉。Google 在 2025 年 8 月 26 日正式發布,這個「Nano Banana」就是他們最新的圖像生成模型:Gemini 2.5 Flash Image。這次的 AI 繪圖工具直接挑戰了過去 AI 生成圖像最令人頭痛的問題:維持角色與場景的一致性。

Introducing Gemini 2.5 Flash Image, our state-of-the-art image model
Gemini 2.5 Flash Image :「編輯」和「一致性」方面的突破
角色與場景一致性:解決 AI 繪圖最大痛點
過去使用 AI 生成圖像時,最常見的困擾是,即使只是想微調角色的服裝或背景,AI 常常會畫出一個完全不同的人物。Gemini 2.5 Flash Image 有效地解決了這個問題。用戶可以鎖定一個人物、寵物或物件的樣貌,然後在多張圖片中持續編輯,例如為同一個人換上鬥牛士服裝,或讓同一隻狗戴上芭蕾舞裙,同時確保主角的外觀特徵保持不變,下圖可以看出TN科技筆記的字體完全一致,其他東西全變成了可愛的 banana 風格。
(TN科技筆記搭配 banana 風格特別版!)
多輪對話式編輯:像聊天一樣修圖
這個模型支援「多輪編輯」,讓修圖過程變得像和設計師對話一樣自然。你可以一步步下指令來修改圖片,例如「先把房間重新粉刷成藍色」、「再加一張木製沙發」,然後「把窗外的季節從夏天改成冬天」。每一步,模型都會在維持場景完整性的前提下,精準執行你的要求。
自然語言操控與圖像融合
除了複雜的編輯,它也支援透過簡單的文字指令進行精細調整,像是「模糊背景」、「移除路人」或「為這張黑白照片上色」。此外,模型還具備圖像融合的能力,可以將兩張獨立的圖片自然地結合,例如把一張人像和一張狗的照片放到全新的場景中,或是將花朵圖案應用到一雙雨靴上,創造出獨特的新風格。

從免費到商用:兼顧普及與安全的 AI 生態系
Google 這次將 Gemini 2.5 Flash Image 開放給大眾,目前全面整合到 Google 的生態系中,包含 Gemini App、Gemini API、Google AI Studio 以及企業級的 Vertex AI 平台。無論是免費或付費用戶都能體驗到專業級的 AI 修圖能力。對於開發者與企業而言,透過 API 串接的成本也相對便宜,平均每張圖片的生成成本約為 0.039 美元。這為電商、廣告、遊戲設計等行業提供了更具成本效益的客製化圖像解決方案。
為了防止技術濫用,Google 也採取了相應的措施。所有經由模型生成的圖片,都會帶有可見的「AI」浮水印以及隱形的 SynthID 標記,以提高圖像來源的透明度,應對可能出現的誤導性資訊問題。
TN科技筆記的觀點
Google 這次先上競技場,再公布模型身分的策略相當成功。「Nano Banana」在 LMArena 平台上累積的口碑與好奇心,為正式發布創造了極佳的行銷效果。顯示「社群驗證」在當前 AI 時代的重要性。當然,其在圖像生成「一致性」方面的突破,才是真正令人驚豔的原因,使AI圖像生成逐漸變成具備實用性的生產力工具。
支持TN科技筆記,與科技共同前行
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!