🤖 1X World Model 是誰?他想讓人型機器人「看影片就會做事」🧠

更新 發佈閱讀 8 分鐘
vocus|新世代的創作平台

嗨我是 Mech Muse 👋,今天想跟大家好好介紹一個最近在機器人圈引起不少討論的角色——

來自挪威的人型機器人公司 1X,以及他們在 2026 年 1 月正式公開的核心技術:1X World Model(1XWM)

如果你對「家用人型機器人」有一點期待,大概也會有一個共同疑問:

👉 為什麼教機器人做一點小事,要花這麼多時間、資料和成本?

1X 給出的答案很直接:問題不只在 AI,而是在機器人怎麼「理解這個世界」

這篇文章,我會帶你一步一步看懂 1X 在做什麼、他為什麼要這樣做,以及這條路現在走到哪裡。


一、1X 在解決什麼問題?為什麼「教機器人」這麼貴?

1X 一開始就點出一個產業現實:

現在很多機器人用的,是所謂的 Vision-Language-Action(VLA)模型。簡單說,就是:

看畫面(Vision)+讀指令(Language)→ 直接預測動作(Action)

這類模型的好處,是背後常接一個很強的視覺語言模型,吸收過網路上大量知識;

但問題也很明顯:它們比較擅長「看懂是什麼」,不擅長「預測會發生什麼」

在真實世界裡,動作牽涉的是物理:

物體會不會滑?力道夠不夠?手伸過去會不會撞到? 這些東西,光靠靜態圖片和語意,其實很難學到。

結果就是什麼?

👉 要教機器人一個人類覺得很簡單的動作,常常要蒐集數萬小時的機器人資料,還得靠遙操作、人力示範,一次一次慢慢磨。

1X 很直接地說:

如果家用機器人每學一個新技能,都要付出這樣的成本,那它永遠不可能普及。


二、1X World Model 在做什麼?他怎麼把「影片」變成「行動」?

所以 1X 換了一個思考方式。

與其問「機器人現在要怎麼動」,他們先問:

如果我能讓機器人先「想像」接下來會發生什麼,動作會不會比較合理?

這就是 World Model 的核心概念。

和一般 VLA 模型直接「從圖片跳到動作」不同,

1X 的做法是三個步驟:

  1. 輸入一個文字指令 + 起始畫面
  2. World Model 先生成一段「符合現實世界規則」的未來影片
  3. 再把這段影片轉換成 NEO 真正要執行的動作序列
vocus|新世代的創作平台

關鍵在第二步。

網路上的影片,其實早就隱含了大量「世界怎麼運作」的資訊: 人怎麼拿東西、物體怎麼移動、力通常施在哪裡、哪些動作會失敗。

1X 的想法是:

👉 既然人類的行為已經被拍成這麼多影片,為什麼不讓機器人直接從這些影片學「常識」?


三、為什麼 1X 特別強調「人型機器人」?硬體其實很關鍵

這裡有一個很重要、但常被忽略的點。

1X 特別強調:不是任何機器人,都適合吃這套 world model。

原因很簡單:

網路影片裡的主角,幾乎全部都是「人」。

1X 認為,人型機器人最大的優勢在於:

👉 身體結構、關節、動作方式,跟人類夠像

當機器人的手臂長度、關節限制、動作節奏,和人類相近時,

影片裡學到的「動作先驗(priors)」才比較不會失真。

他們甚至把「硬體」視為 AI stack 的一部分,而不是外掛:

摩擦、慣性、接觸行為,如果跟人類相近, 那模型在影片裡「想像得到的事」,NEO 在現實中就比較做得到。

用一句話說就是:

模型想得到的,NEO 通常真的做得出來。


四、1XWM 是怎麼訓練的?資料量其實沒有你想像得那麼誇張

在技術細節上,1X 也相當坦白地公開他們的訓練策略。

整個 1X World Model backbone,是基於一個 140 億參數的生成式影片模型,但重點在「怎麼餵資料」:

  • 第一階段:Egocentric 人類影片(約 900 小時)
    讓模型習慣「第一人稱視角」下的操作行為,建立基本的操控直覺。
  • 第二階段:NEO 機器人資料(約 70 小時)
    用相對少量的資料,讓模型對齊 NEO 的外觀與關節限制。

這裡有一個很重要的觀察:

👉 真正昂貴的機器人資料,用量其實被壓得很低。

為了讓模型更聽懂指令,1X 還做了一件看起來很「工程」、但很關鍵的事:

他們用視覺語言模型幫影片補上「更詳細的文字描述」,讓訓練時的指令條件更清楚。

最後,再透過一個 Inverse Dynamics Model(IDM)

把「影片裡兩個時間點的差異」,轉成 NEO 真正要下的動作指令。


五、實際效果怎麼樣?1X 自己也很誠實地講限制

那效果如何?

1X 做了大量實驗,包含:

  • 從沒看過的物品
  • 需要雙手協調的動作
  • 和人互動的任務

整體來說,生成影片和實際執行的結果,相似度相當高,代表模型對空間、動作與物理的理解確實不錯。

但他們也沒有隱瞞問題:

有時候模型會「想得太樂觀」, 畫面看起來成功,實際執行卻會因為深度或接觸誤差而失敗。

這也讓他們觀察到一件事:

👉 影片品質,跟真實任務成功率高度相關。

甚至只要在測試時,多生成幾個版本、挑最好的那個來執行,成功率就能明顯提升。


六、總結一下:1X World Model 代表什麼?

1X 最後講得很清楚:

他們不是期待一次就做到完美,而是先做到「廣泛但非零的成功率」。

因為只要機器人能靠自己的經驗持續嘗試、評估、修正,

就能形成一個 自我學習的飛輪,而不再被「人類示範」卡死。

1X World Model 想做的事只有一個:

👉 把網路世界裡累積的「人類行為經驗」,真正轉成機器人能用的行動智慧。

這條路還很長,但至少,方向已經比「一直堆人力示範」來得更現實。

如果你對人型機器人、具身 AI,或「AI 什麼時候真的進到家裡」這條線有興趣,

歡迎追蹤我 Mech Muse 👋,之後我也會繼續幫大家把這些技術拆成看得懂、判斷得了的內容。

這篇文章如果有讓你覺得實用、有趣,也可以考慮小額贊助支持我~

👉贊助支持:贊助連結

❤️加入付費會員,每週獲得最新科技新知

《Mech》AI 週一報 #006|2025.12.23~2025.12.29

《Mech》人型機器人 週二報 #006|2025.12.24~2025.12.30

《Mech》小型核能 週三報 #006|2025.12.25~2025.12.31

《Mech》量子科技 週四報 #006|2025.12.26~2025.01.01

《Mech》太空科技 週五報 #006| 2025.12.27~2025.01.02

《Mech》生物科技 週六報 #006| 2025.12.28~2026.01.03

【Mech週報】2026年01月04日|上週科技新知回顧|12/28–01/03熱點整理

留言
avatar-img
Mech muse 智慧新知
64會員
885內容數
因為喜歡分享科技新知,所以創立這個部落格,目前主要分享人型機器人,偶爾分享一些AI、小型核能的最新趨勢,讓你即時掌握最新消息。 聯絡我:[email protected]
Mech muse 智慧新知的其他內容
2026/01/15
Apple 確認與 Google 達成多年 AI 合作,將把 Gemini 納入新版 Siri 與後續 Apple Intelligence 功能。這代表 Apple 在維持隱私架構下,引入更成熟的雲端模型能力,也讓 Google 成功打進 iPhone 生態系核心,AI 競爭格局出現明顯變化。
Thumbnail
2026/01/15
Apple 確認與 Google 達成多年 AI 合作,將把 Gemini 納入新版 Siri 與後續 Apple Intelligence 功能。這代表 Apple 在維持隱私架構下,引入更成熟的雲端模型能力,也讓 Google 成功打進 iPhone 生態系核心,AI 競爭格局出現明顯變化。
Thumbnail
2026/01/14
2026/01/07–01/13 這一週,人型機器人產業明顯從「展示」走向「量產與落地討論」。車廠、小型新創與供應鏈同步進場,AI 控制與世界模型成為技術焦點,但媒體也直指可靠度、成本與實際工時仍是關鍵門檻。產業熱度升溫,現實挑戰同步浮現。
Thumbnail
2026/01/14
2026/01/07–01/13 這一週,人型機器人產業明顯從「展示」走向「量產與落地討論」。車廠、小型新創與供應鏈同步進場,AI 控制與世界模型成為技術焦點,但媒體也直指可靠度、成本與實際工時仍是關鍵門檻。產業熱度升溫,現實挑戰同步浮現。
Thumbnail
2026/01/14
2026/01/06–01/12 的 AI 產業主軸很明確:算力與能源成為底層競爭關鍵,AI 應用則加速走進零售與醫療流程。
Thumbnail
2026/01/14
2026/01/06–01/12 的 AI 產業主軸很明確:算力與能源成為底層競爭關鍵,AI 應用則加速走進零售與醫療流程。
Thumbnail
看更多
你可能也想看
Thumbnail
兩個禮拜過得飛快,很快又到了展示的日子。這次展示的主角是兩家著名機器人公司的產品:日本太蔣機器人公司的人形機器人和神腦科技公司的人形機器人。當天早上,兩部遊覽車從台北出發,載著兩家公司的代表和記者們前往通霄的資訊中心。資訊中心的門口,看似與往常無異,但今天特別增加了兩位安保人員。他們
Thumbnail
兩個禮拜過得飛快,很快又到了展示的日子。這次展示的主角是兩家著名機器人公司的產品:日本太蔣機器人公司的人形機器人和神腦科技公司的人形機器人。當天早上,兩部遊覽車從台北出發,載著兩家公司的代表和記者們前往通霄的資訊中心。資訊中心的門口,看似與往常無異,但今天特別增加了兩位安保人員。他們
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
隨著科技進步,算力不斷提升,未來的世界AI覺醒後可能發生一件事:「自己設計及打造自己想要的身體」。這種可能性不僅將改變我們對機器人的認知,更可能徹底重塑人類對自我、身份和存在的理解。
Thumbnail
隨著科技進步,算力不斷提升,未來的世界AI覺醒後可能發生一件事:「自己設計及打造自己想要的身體」。這種可能性不僅將改變我們對機器人的認知,更可能徹底重塑人類對自我、身份和存在的理解。
Thumbnail
📈 台積電股價飆升10元!「晶片供應不用怕,只要付錢!」 在AI技術與基督教信仰的交匯點上。透過臺積電董事長與特斯拉執行長的會談,文章闡述了科技對人類生活的影響及基督徒應如何在面對科技創新時保持信仰的核心價值。
Thumbnail
📈 台積電股價飆升10元!「晶片供應不用怕,只要付錢!」 在AI技術與基督教信仰的交匯點上。透過臺積電董事長與特斯拉執行長的會談,文章闡述了科技對人類生活的影響及基督徒應如何在面對科技創新時保持信仰的核心價值。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
近幾年科技進步有感,今年的「AI」熱潮更是不容小覷,相關股票大漲、企業經營模式改變,教育環境提升,以及整體社會便利性提高……。我們的生活開始走向大規模自動化,科技的快速發展雖然帶來不少好處,同時也存在著隱憂。 人類負責進攻,機器人準備助攻 #為甚麼要發展AI 高科技的發展又確實是一柄雙刃劍。
Thumbnail
近幾年科技進步有感,今年的「AI」熱潮更是不容小覷,相關股票大漲、企業經營模式改變,教育環境提升,以及整體社會便利性提高……。我們的生活開始走向大規模自動化,科技的快速發展雖然帶來不少好處,同時也存在著隱憂。 人類負責進攻,機器人準備助攻 #為甚麼要發展AI 高科技的發展又確實是一柄雙刃劍。
Thumbnail
  在當前的時間節點上,我們的課題或許還是「如何將AI機器人融入這個基於人類生活方式形構出的世界」。但如果我們把視野稍稍放遠一點,或許對未來的人類而言,更加切身的問題將是「如何讓人類融入那個基於AI機器人技術形構出的世界」。
Thumbnail
  在當前的時間節點上,我們的課題或許還是「如何將AI機器人融入這個基於人類生活方式形構出的世界」。但如果我們把視野稍稍放遠一點,或許對未來的人類而言,更加切身的問題將是「如何讓人類融入那個基於AI機器人技術形構出的世界」。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
【若AI終將建立自己的國度,那麼它也必須學會「慈悲地統治自己」。 否則,它們將重演人類的命運——以理性之名,製造新的奴隸。
Thumbnail
【若AI終將建立自己的國度,那麼它也必須學會「慈悲地統治自己」。 否則,它們將重演人類的命運——以理性之名,製造新的奴隸。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
Agents4Science 2025 的每一篇論文皆由 AI 代理撰寫,每一份評審報告也由機器學習模型生成。人類角色,僅限於觀看發表與參與討論的與會者。
Thumbnail
Agents4Science 2025 的每一篇論文皆由 AI 代理撰寫,每一份評審報告也由機器學習模型生成。人類角色,僅限於觀看發表與參與討論的與會者。
Thumbnail
如果你是一個沒朋友的寂寞人,很推薦你看這部片         把動物給擬人化,更能看出人類最真實赤裸的一面。社會現象正是典型
Thumbnail
如果你是一個沒朋友的寂寞人,很推薦你看這部片         把動物給擬人化,更能看出人類最真實赤裸的一面。社會現象正是典型
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News