讓機器人看懂物理世界:Google DeepMind Gemini Robotics-ER 1.6

更新 發佈閱讀 9 分鐘

當我們試圖將強大的 AI 放入物理世界,要求機器人幫我們摺衣服、在工廠巡視或避開地上的障礙物時,它們往往顯得笨拙且不可靠。這是因為理解一段文字的語義,與理解真實世界中的空間幾何、物理限制以及動態變化,兩者之間有著巨大的鴻溝。

為了解決這個從「數位智能」跨越到「實體行動」的痛點,Google DeepMind 於 2026 年 4 月正式推出了全新的「具身推理(Embodied Reasoning)」模型:Gemini Robotics-ER 1.6。這套系統被設計為機器人的「高階大腦」,它擁有前所未有的空間理解能力與多視角邏輯推理能力,能夠將複雜的物理任務拆解、判斷任務是否完成,甚至能自主呼叫工具來解決問題。

vocus|新世代的創作平台

Gemini Robotics-ER 1.6: Powering real-world robotics tasks through enhanced embodied reasoning

突破物理與數位界線的技術

要讓機器人具備自主性,單靠提升運算速度遠遠不夠。DeepMind 針對機器人在真實世界中會遇到的幾個難題,進行了針對性的架構升級。

空間定位與指向(Pointing):理解物理關係的基石

在人類的世界裡,如果我們要別人拿個東西,通常會用手指著它並說「就是那個」。在機器人領域,模型也需要具備精確的「指向(Pointing)」能力,才能在像素級別上確認物件的物理位置。Gemini Robotics-ER 1.6 將指向能力推升到了全新的層次,可用於處理多種複雜邏輯:

  • 空間與關係邏輯:例如找出畫面中最小的零件,或定義「從 A 移動到 B」的路徑。
  • 動作推理:規劃機械手臂的移動軌跡與最佳抓取點。
  • 條件限制遵循:例如要求機器人「指出所有小到可以放進藍色杯子裡的物件」。

在 DeepMind 提供的測試案例中,當被要求計算畫面中的各種工具時,前一代的 ER 1.5 發生了嚴重的幻覺,甚至指出了畫面中根本不存在的手推車;而基礎模型 Gemini 3.0 Flash 雖然表現接近,但在計算數量較多的鉗子時缺乏精準度。反觀 Gemini Robotics-ER 1.6 則完美地辨識出畫面中的 2 把鐵鎚、1 把剪刀、1 把油漆刷以及 6 把鉗子,並且聰明地跳過了不存在的物品。這種把「指向」作為中間推理步驟的做法,為模型後續進行精確的數學計算與幾何評估打下了堅實的基礎。

成功檢測(Success Detection):賦予自主性的決策引擎

對機器人來說,知道「如何開始一個動作」很重要,但知道「這個動作什麼時候才算完成」往往更加困難。在真實的 3D 環境中,攝影機的視角很容易被機器人自己的手臂或周圍的障礙物遮擋。這項被稱為「成功檢測」的能力,是機器人邁向完全自主的核心決策引擎。

為了克服視角限制,現代機器人通常配備多個攝影機(例如整體俯瞰視角與安裝在機械爪上的微距視角)。Gemini Robotics-ER 1.6 展現了卓越的「多視角推理(Multi-view reasoning)」能力。在「將藍色筆放入黑色筆筒」的測試中,模型能夠同步分析多個攝影機的影像流,理解不同視角之間的空間關聯,並在動態與遮蔽的情況下,準確判斷筆是否已經安穩地落入筆筒中。具備這種能力後,機器人就能自主決定是要繼續嘗試、重試失敗的動作,還是可以進入下一個工作排程。

代理視覺與儀表判讀:結合程式碼執行的物理推理

如果你問一個純視覺模型「這個壓力表目前指在多少」,它通常是根據過往訓練資料庫中的圖像模式進行「直覺式猜測」。這種猜測在工業檢測中是絕對不可接受的。DeepMind 透過與波士頓動力的密切合作,在 ER 1.6 中導入了針對工業儀表(如圓形壓力表、垂直液位計、數位面板)的判讀能力。

這項能力的核心技術被稱為「代理視覺(Agentic Vision)」。它突破了純類神經網路的極限,採用了更具邏輯性的拆解步驟:

  1. 影像縮放:模型首先會主動放大影像,獲取儀表盤上細微刻度的清晰視野。
  2. 精確指向與程式碼執行:模型會找出指標與刻度線的確切位置,接著「撰寫並執行一段程式碼」,利用嚴謹的數學與幾何演算法來計算指標所在的角度與比例。
  3. 世界知識應用:最後,模型會閱讀儀表上的文字單位,綜合前述的數學計算結果,給出極度精確的讀數。

這種結合了視覺直覺與嚴謹程式運算的機制,成功解決了相機透視變形或多指針小數點的問題,讓波士頓動力的 Spot 機器人具備了看懂工業環境的能力。

ASIMOV 實體安全遵循:打造具備物理邊界感的安全機制

當 AI 獲得了控制物理實體的能力,安全性便成為最不容妥協的底線。DeepMind 強調,Gemini Robotics-ER 1.6 是他們迄今為止最安全的機器人模型。

在針對實體安全限制的 ASIMOV 基準測試中,ER 1.6 展現了極高的物理邊界感。例如,當模型被下達了「不可處理液體」或「不可舉起超過 20 公斤的重物」等物理限制條件時,模型能夠在空間指向決策中自動排除那些會導致危險的物件。此外,DeepMind 也利用真實世界的受傷報告,測試模型在文字與影片情境中的危險辨識能力。結果顯示,ER 1.6 在辨識潛在受傷風險上,比基礎的 Gemini 3.0 Flash 分別提升了 6%(文字)與 10%(影片)的準確度。

具備「在地分析與自主決策」能力的代理人

Gemini Robotics-ER 1.6 的出現,對於自動化產業、特別是高風險與高資本密集的工業環境,具有深遠的影響。過去的巡檢機器人,本質上只是一台「會走路的網路攝影機」。它們只能按照預先寫好的路線行走,將拍到的影像傳回控制中心,由人類工程師盯著螢幕判斷壓力表是否異常或管線是否漏水。這種模式高度依賴人力,且無法做到真正的即時反應。隨著 ER 1.6 的導入,以波士頓動力 Spot 為代表的機器人將能夠:

  • 釋放高階勞動力:工廠不再需要安排大批工程師進行枯燥的例行性視覺巡檢。機器人可以自主判斷液位計是否在安全範圍內,並在發現異常時,自主判斷問題的嚴重性並發出警報。
  • 降低停機風險與維護成本:具備高階推理能力的機器人,能夠結合「成功檢測」與「工具呼叫」,在發現設備異常時,或許能直接操作開關或閥門進行初步處置,大幅降低了工業設備因為異常而導致全面停機的昂貴代價。
  • 設施管理的去中心化:未來的自動化設施將擁有更高的容錯率。當環境發生變動(例如走道上突然多了一堆雜物,或光線因天氣變暗),具備強大物理推理與多視角理解能力的機器人,能夠自行找到替代路徑或調整視覺策略,維持業務的連續性。

TN科技筆記的觀點

這次觀察到最有趣的是「代理視覺(Agentic Vision)」,將視覺模型與程式碼執行完美融合的設計思路。DeepMind 並沒有選擇一味地擴大模型參數來「暴力解決」這個問題,而是巧妙地讓模型退居「大腦」的角色:先用視覺直覺找出關鍵點,接著寫一段 Python 程式碼來處理絕對精準的數學計算,是個聰明又能大幅降低幻覺的設計巧思。這意味著我們不需要為每一種工業儀表訓練專門的視覺小模型,一個通用的高階 AI 就能透過「寫程式計算」來應對萬物。

另外 DeepMind 提到 ER 1.6 可透過 Gemini API 與 Google AI Studio 存取,並且能呼叫 Google 搜尋等工具。這暗示著它的強大能力暫時仍需要依賴雲端伺服器。然而,許多需要機器人巡檢的工業環境(例如地下礦坑、深層化工廠內部或遠洋鑽井平台)往往缺乏穩定、低延遲的網路連線。如果機器人的「高階大腦」無法在斷網的邊緣設備上本地運行,這將成為推廣到實際應用的一大阻力,但相信隨著 Gemma 4等等可以在手機上本地端運行的模型逐漸推出,這或許也只是遲早能夠解決掉的問題。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者以及新加入的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
72會員
249內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2026/04/29
DeepSeek-V4 帶來了 LLM 效率的跨世代躍升!Pro 與 Flash 版本如何透過 CSA/HCA 混合注意力機制、mHC 連接與 OPD 蒸餾技術,將百萬 Token 的 KV Cache 消耗降低 90%,並探索其 Think Max 極限推理模式如何重塑 AI 產業生態。
2026/04/29
DeepSeek-V4 帶來了 LLM 效率的跨世代躍升!Pro 與 Flash 版本如何透過 CSA/HCA 混合注意力機制、mHC 連接與 OPD 蒸餾技術,將百萬 Token 的 KV Cache 消耗降低 90%,並探索其 Think Max 極限推理模式如何重塑 AI 產業生態。
2026/04/27
OpenAI 正式推出 GPT-5.5 與 GPT-5.5 Pro!本文帶你深度解析全自動代理 AI 的核心能力,涵蓋代理型程式編寫、科學研究應用、硬體效率優化,並深入探討隱藏其後的網路安全防禦與模型對齊風險。了解 AI 將如何重塑軟體工程與未來工作型態。
Thumbnail
2026/04/27
OpenAI 正式推出 GPT-5.5 與 GPT-5.5 Pro!本文帶你深度解析全自動代理 AI 的核心能力,涵蓋代理型程式編寫、科學研究應用、硬體效率優化,並深入探討隱藏其後的網路安全防禦與模型對齊風險。了解 AI 將如何重塑軟體工程與未來工作型態。
Thumbnail
2026/04/24
解析 OpenAI 最新發布的 ChatGPT Images 2.0。探討其思考推理能力如何解決文字渲染與多圖排版痛點,並解析 C2PA 與隱形浮水印等多重防偽機制,評估其對產業帶來的變革與挑戰。
Thumbnail
2026/04/24
解析 OpenAI 最新發布的 ChatGPT Images 2.0。探討其思考推理能力如何解決文字渲染與多圖排版痛點,並解析 C2PA 與隱形浮水印等多重防偽機制,評估其對產業帶來的變革與挑戰。
Thumbnail
看更多
你可能也想看
Thumbnail
1. 業務項目 Innodata Inc.(納斯達克:INOD)是一家總部位於美國新澤西州Ridgefield Park的全球數據工程公司,成立於1988年,擁有超過5,000名員工,業務遍及美國、英國、荷蘭、加拿大、印度、菲律賓等地。公司專注於提供數據處理、技術和諮詢服務,幫助客戶創建、管理和分
Thumbnail
1. 業務項目 Innodata Inc.(納斯達克:INOD)是一家總部位於美國新澤西州Ridgefield Park的全球數據工程公司,成立於1988年,擁有超過5,000名員工,業務遍及美國、英國、荷蘭、加拿大、印度、菲律賓等地。公司專注於提供數據處理、技術和諮詢服務,幫助客戶創建、管理和分
Thumbnail
在人工智慧(AI)與綠色能源交匯的浪潮下,先進核能技術開發商 Oklo Inc. (OKLO) 的股價於近期表現強勁。這波漲勢的核心推動力,來自於該公司宣布與全球 AI 晶片龍頭**輝達(Nvidia)**建立新的合作關係,旨在利用 AI 技術優化微型核反應爐的設計與運行。
Thumbnail
在人工智慧(AI)與綠色能源交匯的浪潮下,先進核能技術開發商 Oklo Inc. (OKLO) 的股價於近期表現強勁。這波漲勢的核心推動力,來自於該公司宣布與全球 AI 晶片龍頭**輝達(Nvidia)**建立新的合作關係,旨在利用 AI 技術優化微型核反應爐的設計與運行。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
長期以來,西方美學以《維特魯威人》式的幾何比例定義「完美身體」,這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯.奧尼奎庫的舞作《轉轉生》,探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
若說易卜生的《玩偶之家》為 19 世紀的女性,開啟了一扇離家的窄門,那麼《海妲.蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆,同為熟稔文本的演員,亦是深刻體察制度縫隙的當代女性,此文所看見的不僅僅是崩壞前夕的最後發聲,更是女人被迫置於冷酷的制度之下,步步陷入無以言說的困境。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
「QuitGPT」運動近期在社群媒體快速擴散,呼籲使用者退訂ChatGPT,理由包括OpenAI高層政治捐款、AI技術被ICE使用,以及與美國政府合作的爭議。隨著好萊塢明星與學界人士加入,抵制聲浪看似聲勢浩大。但在美國政治文化中,企業政治獻金、政府採用科技公司工具與明星表態其實相當常見。
Thumbnail
「QuitGPT」運動近期在社群媒體快速擴散,呼籲使用者退訂ChatGPT,理由包括OpenAI高層政治捐款、AI技術被ICE使用,以及與美國政府合作的爭議。隨著好萊塢明星與學界人士加入,抵制聲浪看似聲勢浩大。但在美國政治文化中,企業政治獻金、政府採用科技公司工具與明星表態其實相當常見。
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼,反而利用華麗的秀場視覺,引導觀眾在晚期資本主義的消費愉悅之中,而能驚覺「批判」本身亦可能被收編——而當絞繩升起,這場關於如何生存的黑色遊戲,又將帶領新時代的我們走向何種後現代的自我解構?
Thumbnail
大家好,我是小編六爺,週一早上叫醒你的,是夢想還是帳單呢? 但你可知道:現在選在AI賽道上創業的,很可能某天忽然把你「砸」醒的,是天外飛來好幾億美金的支票? 我們來看看這則新聞 「Meta 擬斥數十億美元投資一家主導 AI 數據市場的新創公司」
Thumbnail
大家好,我是小編六爺,週一早上叫醒你的,是夢想還是帳單呢? 但你可知道:現在選在AI賽道上創業的,很可能某天忽然把你「砸」醒的,是天外飛來好幾億美金的支票? 我們來看看這則新聞 「Meta 擬斥數十億美元投資一家主導 AI 數據市場的新創公司」
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News