GPT-5.3-Codex :OpenAI主動踏入Coding戰場

更新 發佈閱讀 8 分鐘

Anthropic 才剛推出強調「代理團隊」與「1M 超長上下文」的 Claude Opus 4.6,試圖統治長鏈規劃與理解。然而,OpenAI 在同日發布了 GPT-5.3-Codex,給出了截然不同的答案:OpenAI 選擇讓 AI做得更精確

值得注意的是,這次OpenAI主動踏入Anthropic長期領導的code戰場,究竟能否取得自己的一席之地呢?讓 AI Agent企業導入專家EgentHub帶領各位讀者一起細看本次更新吧!

EgentHub限時活動:8大企業場景Agent與企業級Prompt免費送

重點整理 Takeaway

  • 從coding到agent:結合了 GPT-5.2 的深度推理大腦與 5.2-Codex 的工程執行雙手,這是一個具備 Agentic Capability 的模型。它不僅處理代碼,還能操作工具、進行研究並執行長達數日的複雜流程,且執行速度提升了 25%Token 消耗量更顯著降低,代表開發效率與成本的雙重優化。
  • 基準測試領先:在「xhigh」高強度推理模式下,GPT-5.3-Codex 在 SWE-Bench Pro(涵蓋四種語言的工業級測試)與 Terminal-Bench 2.0 均創下業界新高,展現出操作終端機(CLI)與解決現實世界軟體工程問題的精準度。
  • Codex macOS 專屬應用程式:全新的桌面指揮中心正式亮相。透過獨創的工作樹(Work Tree)機制與技能(Skills)系統,讓 AI 能並行處理多項任務,並直接與 Figma、Linear、Cloudflare 等企業工具串接。
vocus|新世代的創作平台

前言:AI 戰局的新節點,當「大腦」遇上「雙手」

對於專業人士來說,GPT-5.3-Codex 的意義在於它跨越了「對話框」。這是一個能直接在電腦上操作 UI、管理部署、甚至協助開發者除錯的「數位同事」。最具洞察力的細節是,OpenAI 的 Codex 團隊透露,他們在開發 GPT-5.3-Codex 的過程中,就已經在運用其早期版本來針對訓練流程除錯、管理部署與診斷測試結果。這種「AI 打造自身」的模式,證明了該模型在現實生產環境中已具備極高的成熟度。


「大腦」與「雙手」的結合

GPT-5.3-Codex 與一般的 GPT-5.2 有什麼不同?簡單來說,它是「最強大腦」與「頂尖雙手」的完美結合。它整合了 GPT-5.2 的跨領域專業推理能力,並繼承了 5.2-Codex 的工程效能。

這樣的結合賦予了它強大的智慧體能力(Agentic Capability),它不再是冷冰冰地吐出代碼,而是像一位資深同事,在執行任務時會主動提供進度更新,並在遇到決策模糊地帶時與你互動討論,引導你做出正確判斷,而不會失去既有的工作脈絡。


基準測試表現:xhigh 推理強度下的硬實力

在專業評測中,GPT-5.3-Codex 的表現大幅領先,且所有數據均是在 「xhigh」推理強度 下達成:

  • 軟體工程實力:在 SWE-Bench Pro 測試中,GPT-5.3-Codex 達到了 56.8% 的新高。這項測試比以往更具權威性,因為它不再只測 Python,而是涵蓋四種語言,並具備高度抗污染性與實務應用性,證明模型能處理真實世界的軟體情境。
  • 極致的終端操作:在 Terminal-Bench 2.0(評估編碼Agent的 CLI 操作精準度)中,得分高達 77.3%,遠超前代與競爭對手,代表它在操作命令行時幾乎不失誤。
  • 跨領域任務執行
    • OSWorld-Verified:在視覺化桌面環境中,模型透過視覺判斷完成各種生產力任務,得分達 64.7%,遠勝過往模型。
    • GDPval :在涵蓋金融顧問、資料科學家等 44 種專業職業任務的測試中,GPT-5.3-Codex 的表現(70.9%)已能與純推理模型 GPT-5.2 並駕齊驅,能精準建立複雜的簡報、試算表與專業報告。

網頁開發與實作:從零到一的自我迭代

這次更新最令人驚艷的,小編覺得是GPT-5.3-Codex 展現了驚人的自主迭代能力。以OpenAI官方的文件案例來說:

  • 在開發賽車遊戲時,它不僅僅是寫代碼,而是自主建構了一個具備 8 張地圖、3D Voxel 物理效果與道具系統的複雜系統。
  • 在製作潛水遊戲時,模型甚至能理解氧氣管理、壓力感應與魚類收集等複雜機制。過程中,它同時扮演設計師與 QA,透過「實際玩遊戲」來驗證並修正 Bug。

另一項特性是它對模糊意圖的捕捉,在建立登錄頁面 的案例中:

  • 美感自動化:即使提示詞簡短,它也能自動套用紫藍漸層、玻璃質感卡片等 SaaS 流行美學。
  • 商業邏輯理解:它會自動將年度方案換算為折扣後的月費,而非單純平均分攤,更主動生成具備動態效果的客戶見證輪播,讓產出物直接達到可上線水準。
  • 極高效能:完成這些複雜任務所消耗的 Token 數量更少,這對企業來說代表了更低的營運成本。

vocus|新世代的創作平台

Codex 應用程式:你的智慧體指揮中心

為了讓這些能力落地,OpenAI 甚至為 macOS 打造了 Codex 桌面應用程式

  • 多智慧體協作與工作樹(Work Tree): 這對專業人士非常有感。你可以想像「工作樹」讓你在處理專案時,能同時開啟三個不同的「分身克隆」。三個智慧體可以同時在同一個代碼庫的不同副本上,並行嘗試三種不同的技術路徑,且互不衝突,讓你能在最終決定前預覽三種結果。
  • 擴展技能(Skills)與自動化:Codex能與多種應用進行深度串接,同時,你也可以設定排程,讓 Codex 在背景自動執行「每日問題分類」、「CI 失敗調查」或「生成發布摘要」,讓重複性工作不再佔用你的腦力。
  • 個性化協作風格: 延續GPT5.2的風格,你可以透過 /personality 指令,在「精簡務實」與「具同理心對話」之間切換,讓 AI 的語氣完美契合你的團隊文化。

企業如何擁抱「智慧體時代」?

GPT-5.3-Codex 的出現,讓AI能同時給建議與動手做,縮小了模型智力與實際業務應用之間的落差,從AI Agent企業導入顧問 EgentHub的角度來看,在 2026 年,一個不支援 MCP (Model Context Protocol) 串接、無法靈活配置多模型的平台,基本上就是將企業的數位勞動力邊緣化。

EgentHub 作為專業的 AI Agent 管理平台,除了提供完善權限控管,與多種資料種類RAG的AI Agent平台之外,我們也提供完善的工具串接機制與MCP功能,讓 AI 真正走入企業流程。別讓技術紅利與你的企業擦身而過。現在就透過 EgentHub,將AI Agent轉化為你的企業競爭核心,讓 AI 落地,開啟智慧體協作的新篇章。

EgentHub限時活動:8大企業場景Agent與企業級Prompt免費送
留言
avatar-img
EgentHub 閱讀筆記
32會員
107內容數
EgentHub是由智慧方案股份有限公司打造的企業級 AI Agent 平台,協助企業將知識、經驗與流程萃取並轉化爲AI SOP,打造AI Agents支援日常決策、執行與協作,已有百家企業採用,涵蓋製造、紡織、金屬加工、電子、石化等產業,每月釋放超過2,000 小時人力工時,提升營運效率與精準度。
EgentHub 閱讀筆記的其他內容
2026/02/06
2026 年 2 月 5 日,Anthropic 正式向全球發布了最新一代旗艦模型:Claude Opus 4.6。身為 Anthropic 家族中「最聰明」的代表,Opus 4.6 的回歸不單是為了奪回效能榜首,更是針對複雜編碼、自主規劃與長鏈任務的一次深度進化。
Thumbnail
2026/02/06
2026 年 2 月 5 日,Anthropic 正式向全球發布了最新一代旗艦模型:Claude Opus 4.6。身為 Anthropic 家族中「最聰明」的代表,Opus 4.6 的回歸不單是為了奪回效能榜首,更是針對複雜編碼、自主規劃與長鏈任務的一次深度進化。
Thumbnail
2026/02/05
提示詞怎麼寫?Prompt怎麼優化?我的Agent怎麼都不太穩定? 2026 最新提示詞撰寫技巧大公開!不要再看過時的提示詞教學了!EgentHub結合實務經驗,從寫提示詞的心法、技巧到修正一次到位,再贈送8大企業場景Agent與提示詞模板,給你從了解到實作的完整歷程,成為提示詞專家!
Thumbnail
2026/02/05
提示詞怎麼寫?Prompt怎麼優化?我的Agent怎麼都不太穩定? 2026 最新提示詞撰寫技巧大公開!不要再看過時的提示詞教學了!EgentHub結合實務經驗,從寫提示詞的心法、技巧到修正一次到位,再贈送8大企業場景Agent與提示詞模板,給你從了解到實作的完整歷程,成為提示詞專家!
Thumbnail
2026/01/14
NVIDIA 創辦人暨執行長黃仁勳在 CES 的主題演講,除了發布了一系列新產品,也為人工智慧的下一個十年,揭示了一幅清晰的發展藍圖。接續其2025的演講,AI經過2025一年的發展,距離Agentic AI的時代又近了一步,也開始朝向物理 AI (Physical AI)進行嘗試。
Thumbnail
2026/01/14
NVIDIA 創辦人暨執行長黃仁勳在 CES 的主題演講,除了發布了一系列新產品,也為人工智慧的下一個十年,揭示了一幅清晰的發展藍圖。接續其2025的演講,AI經過2025一年的發展,距離Agentic AI的時代又近了一步,也開始朝向物理 AI (Physical AI)進行嘗試。
Thumbnail
看更多
你可能也想看
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
Felo AI 搜尋代理結合對話式搜尋與多語言支持,能快速整理知識、生成摘要與翻譯。不僅能提升市場分析、風險評估、技術可行性研究等工作的效率,還能自動產出結構化報告與簡報,幫助研究人員與團隊更快獲得洞察並轉化為可行行動。
Thumbnail
Felo AI 搜尋代理結合對話式搜尋與多語言支持,能快速整理知識、生成摘要與翻譯。不僅能提升市場分析、風險評估、技術可行性研究等工作的效率,還能自動產出結構化報告與簡報,幫助研究人員與團隊更快獲得洞察並轉化為可行行動。
Thumbnail
本文比較OpenAI、Claude、Perplexity三大AI搜尋API(web search),包含規格、串接方式、重要參數、使用限制。本文將以Python 為例,助你整合LLM與網路搜尋 web search 能力。
Thumbnail
本文比較OpenAI、Claude、Perplexity三大AI搜尋API(web search),包含規格、串接方式、重要參數、使用限制。本文將以Python 為例,助你整合LLM與網路搜尋 web search 能力。
Thumbnail
這篇文章深入剖析 Sam Altman 在訪談中的核心 AI 戰略與產品洞察,重點闡述了從「被動對話框」演進至「主動代理人」的範式轉移、算力作為商業天花板的重要性、「個性化記憶」取代「模型 IQ」成為產品護城河,並為產品團隊提供了鎖定垂直領域、重構流程、實驗主動回報與個性化記憶的實務建議。
Thumbnail
這篇文章深入剖析 Sam Altman 在訪談中的核心 AI 戰略與產品洞察,重點闡述了從「被動對話框」演進至「主動代理人」的範式轉移、算力作為商業天花板的重要性、「個性化記憶」取代「模型 IQ」成為產品護城河,並為產品團隊提供了鎖定垂直領域、重構流程、實驗主動回報與個性化記憶的實務建議。
Thumbnail
OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!
Thumbnail
OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
簡介 《What Are AI Agents?》由 Benjamin Labaschin 撰寫,旨在解釋人工智慧代理(AI Agents)的概念、技術運作原理,以及它們如何運用在實際生活與工作的情境中。該書重點闡述了大型語言模型(LLMs)與 AI 代理的關係,並深入探討這些代理如何在文件問答、聊
Thumbnail
簡介 《What Are AI Agents?》由 Benjamin Labaschin 撰寫,旨在解釋人工智慧代理(AI Agents)的概念、技術運作原理,以及它們如何運用在實際生活與工作的情境中。該書重點闡述了大型語言模型(LLMs)與 AI 代理的關係,並深入探討這些代理如何在文件問答、聊
Thumbnail
如何讓自己的資料被 ChatGPT 或其他 AI 模型引用。 以下是一些重點總結: 如何讓你的資料成為 ChatGPT 的「訓練語料」 1. 允許爬蟲抓取: * 確保你的網站在 robots.txt 中允許爬蟲抓取。 2. 發布到高權重網站: * 將內容發佈到 Medium、
Thumbnail
如何讓自己的資料被 ChatGPT 或其他 AI 模型引用。 以下是一些重點總結: 如何讓你的資料成為 ChatGPT 的「訓練語料」 1. 允許爬蟲抓取: * 確保你的網站在 robots.txt 中允許爬蟲抓取。 2. 發布到高權重網站: * 將內容發佈到 Medium、
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
麥肯錫報告指出,汽車金融業營運成本高,可透過導入「AI代理」降低5%至8%的成本。介紹四種AI Agent應用場景:再行銷專員、客服專員、採購專員、動態定價高手。AI Agent能獨立思考、執行任務,涵蓋二手車處理、客戶服務與內部稽核、車輛生命週期價值評估,能做到超精準定價,協助企業提高效率與利潤。
Thumbnail
麥肯錫報告指出,汽車金融業營運成本高,可透過導入「AI代理」降低5%至8%的成本。介紹四種AI Agent應用場景:再行銷專員、客服專員、採購專員、動態定價高手。AI Agent能獨立思考、執行任務,涵蓋二手車處理、客戶服務與內部稽核、車輛生命週期價值評估,能做到超精準定價,協助企業提高效率與利潤。
Thumbnail
麥肯錫報告説,未來工作將由人類、AI Agent與機器人三者合作組成。AI在技術上可自動化美國57%的總工作時數,但情感理解、現場判斷等43%的工作無法被取代。工作將被「重塑」,而非取代,人類需將精力轉移到需要判斷力、道德觀和人際關係的領域,並發展「AI流利度」。
Thumbnail
麥肯錫報告説,未來工作將由人類、AI Agent與機器人三者合作組成。AI在技術上可自動化美國57%的總工作時數,但情感理解、現場判斷等43%的工作無法被取代。工作將被「重塑」,而非取代,人類需將精力轉移到需要判斷力、道德觀和人際關係的領域,並發展「AI流利度」。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News