Google 神秘模型「nano banana」公開啦!就是圖像生成模型 Gemini 2.5 Flash Image

更新於 發佈於 閱讀時間約 5 分鐘

前陣子在 AI 圈內一個名為「Nano Banana」的神秘模型,在專門評測 AI 模型的競技場 LMArena 上進行匿名測試,並因為出色的表現引起廣泛討論。許多人都在猜測這究竟是哪家公司的作品,而謎底終於揭曉。Google 在 2025 年 8 月 26 日正式發布,這個「Nano Banana」就是他們最新的圖像生成模型:Gemini 2.5 Flash Image。這次的 AI 繪圖工具直接挑戰了過去 AI 生成圖像最令人頭痛的問題:維持角色與場景的一致性。

raw-image

Introducing Gemini 2.5 Flash Image, our state-of-the-art image model

Gemini 2.5 Flash Image :「編輯」和「一致性」方面的突破

角色與場景一致性:解決 AI 繪圖最大痛點

過去使用 AI 生成圖像時,最常見的困擾是,即使只是想微調角色的服裝或背景,AI 常常會畫出一個完全不同的人物。Gemini 2.5 Flash Image 有效地解決了這個問題。用戶可以鎖定一個人物、寵物或物件的樣貌,然後在多張圖片中持續編輯,例如為同一個人換上鬥牛士服裝,或讓同一隻狗戴上芭蕾舞裙,同時確保主角的外觀特徵保持不變,下圖可以看出TN科技筆記的字體完全一致,其他東西全變成了可愛的 banana 風格。

raw-image

(TN科技筆記搭配 banana 風格特別版!)

多輪對話式編輯:像聊天一樣修圖

這個模型支援「多輪編輯」,讓修圖過程變得像和設計師對話一樣自然。你可以一步步下指令來修改圖片,例如「先把房間重新粉刷成藍色」、「再加一張木製沙發」,然後「把窗外的季節從夏天改成冬天」。每一步,模型都會在維持場景完整性的前提下,精準執行你的要求。

自然語言操控與圖像融合

除了複雜的編輯,它也支援透過簡單的文字指令進行精細調整,像是「模糊背景」、「移除路人」或「為這張黑白照片上色」。此外,模型還具備圖像融合的能力,可以將兩張獨立的圖片自然地結合,例如把一張人像和一張狗的照片放到全新的場景中,或是將花朵圖案應用到一雙雨靴上,創造出獨特的新風格。


raw-image

Google 示範圖像融合的網站

從免費到商用:兼顧普及與安全的 AI 生態系

Google 這次將 Gemini 2.5 Flash Image 開放給大眾,目前全面整合到 Google 的生態系中,包含 Gemini App、Gemini API、Google AI Studio 以及企業級的 Vertex AI 平台。無論是免費或付費用戶都能體驗到專業級的 AI 修圖能力。對於開發者與企業而言,透過 API 串接的成本也相對便宜,平均每張圖片的生成成本約為 0.039 美元。這為電商、廣告、遊戲設計等行業提供了更具成本效益的客製化圖像解決方案。

為了防止技術濫用,Google 也採取了相應的措施。所有經由模型生成的圖片,都會帶有可見的「AI」浮水印以及隱形的 SynthID 標記,以提高圖像來源的透明度,應對可能出現的誤導性資訊問題。

TN科技筆記的觀點

Google 這次先上競技場,再公布模型身分的策略相當成功。「Nano Banana」在 LMArena 平台上累積的口碑與好奇心,為正式發布創造了極佳的行銷效果。顯示「社群驗證」在當前 AI 時代的重要性。當然,其在圖像生成「一致性」方面的突破,才是真正令人驚豔的原因,使AI圖像生成逐漸變成具備實用性的生產力工具。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
40會員
145內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/08/25
大型語言模型(LLM)的體積越來越龐大,運算成本也隨之水漲船高。這使得許多企業和開發者在導入 AI 應用的最後一哩路上,常常因為高昂的硬體需求和維護成本而卻步。就在 2025 年 8 月,NVIDIA 推出了一款全新模型:Nemotron Nano 2。
Thumbnail
2025/08/25
大型語言模型(LLM)的體積越來越龐大,運算成本也隨之水漲船高。這使得許多企業和開發者在導入 AI 應用的最後一哩路上,常常因為高昂的硬體需求和維護成本而卻步。就在 2025 年 8 月,NVIDIA 推出了一款全新模型:Nemotron Nano 2。
Thumbnail
2025/08/18
大型語言模型(LLM)雖然能力強大,但其「推理」(Inference)階段,也就是實際生成內容、提供服務的過程極度消耗 GPU 資源,驅動這一切的龐大算力成本,正成為所有開發者與企業的巨大挑戰。
2025/08/18
大型語言模型(LLM)雖然能力強大,但其「推理」(Inference)階段,也就是實際生成內容、提供服務的過程極度消耗 GPU 資源,驅動這一切的龐大算力成本,正成為所有開發者與企業的巨大挑戰。
2025/08/17
在 AI 領域,我們似乎已經習慣了「越大越好」的軍備競賽,模型參數從數十億一路飆升到上兆。然而,Google 在 2025 年 8 月 14 日發布的新模型,卻給這個趨勢踩下了一個有趣的煞車。今天我們要談的主角是 Gemma 3 270M,一個僅有 2.7 億參數的「小而美」AI 模型。
Thumbnail
2025/08/17
在 AI 領域,我們似乎已經習慣了「越大越好」的軍備競賽,模型參數從數十億一路飆升到上兆。然而,Google 在 2025 年 8 月 14 日發布的新模型,卻給這個趨勢踩下了一個有趣的煞車。今天我們要談的主角是 Gemma 3 270M,一個僅有 2.7 億參數的「小而美」AI 模型。
Thumbnail
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
隨著 AI 技術的進步,Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔,還能幫助你建立專屬知識庫。今天,我將介紹 NotebookLM 是什麼、如何使用它,以及在三種不同情境中的應用方法。
Thumbnail
隨著 AI 技術的進步,Google 推出了一款令人興奮的生產力工具—NotebookLM。這款結合 Gemini 1.5 Pro 模型的筆記本工具不僅能輕鬆生成問題、快速摘要文檔,還能幫助你建立專屬知識庫。今天,我將介紹 NotebookLM 是什麼、如何使用它,以及在三種不同情境中的應用方法。
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
什麼是 AI? Artificial Intellgent ㄧ個數位大腦 電腦新物種 模擬人類的腦神經 整合2D與3D的繪圖視覺 在Bing 裡面基本上分為這幾個類型: 逼真的3D動畫 動畫虛擬人偶 展示攝影 可愛貼圖 二為圖例 電腦科幻虛擬人偶 公司標誌 卡通電影海
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
AI -Gemini : 我鼓勵你探索自己的答案,並找到讓你感到充實和意義的東西。 我的 AI -Gemini 無法回答我全部的問題... “我從哪裡來?” “現在發生的事情的品質如何?” AI -Gemini : 我是一個由 Google AI 創建的大型語言模型,在大量文字和程式碼...
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
什麼是 Google Gemini? Gemini 是 Google DeepMind 開發的多模態大型語言模型的尖端家族,繼 LaMDA 和 PaLM 2 之後。它於 2023 年 12 月 6 日宣布,包括 Gemini Ultra、Pro 和 Nano,旨在超越 OpenAI 的 GPT-4
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
大部分的人都知道Open AI的ChatGPT, 部份的人知道Perplexity一類的生成式AI模型, 還有一些人知道Google研發的生成式AI模型:Gemini (意思是拉丁文的雙生)。 但幾小時前開放給開發者及研究者的開源AI模型Gemma(意思是拉丁文珍貴的石頭)大概沒什麼知道,
Thumbnail
股癌24.02.19 *OPEN AI鴨子划水,推出文字轉影片的AI模型Sora。 Sora對物體世界有認知,有望成為真正的世界模型,真正教會AI世界運作的道理,AI教會人類手指動作、玻璃碎掉、光影反射的物理狀況。 --之前的文字轉影片 背景會一直閃、因為模型還沒有算得很準。 *Sora相較
Thumbnail
股癌24.02.19 *OPEN AI鴨子划水,推出文字轉影片的AI模型Sora。 Sora對物體世界有認知,有望成為真正的世界模型,真正教會AI世界運作的道理,AI教會人類手指動作、玻璃碎掉、光影反射的物理狀況。 --之前的文字轉影片 背景會一直閃、因為模型還沒有算得很準。 *Sora相較
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News