123K vs 82K Stars 只是表象,1,470 次實測揭露兩家 AI 公司的 DNA
上週朋友傳訊息問我:「Claude Code 和 Codex 到底選哪個?Claude Code 星數比較多耶。」
我說:星數看看就好。真正決定性的是另一件事:你讓哪個 agent 幫你起頭,它就把自己的技術棧偏好寫進你的專案。
Codex 會傾向幫你選 Cloudflare、Statsig。Claude Code 會傾向 Vercel、Bun。這不是 bug,是兩家 AI 公司的世界觀。
但這樣講太抽象。讓我說說 amplifying.ai 做的那個實驗:同一份 prompt,對兩個 agent 跑了 1,470 次。結果我讀完之後,對 AI 工具的理解被刷新了一次。
研究怎麼做的:1,470 次,不是跑分,是真實使用
amplifying.ai 的研究設計很聰明(資料驗證日期:2026-05-11)。
他們挑了 5 個不同類型的 open source repo——Next.js、FastAPI、React、Go、Rails,橫跨 JS/TS、Python、Go、Ruby 等技術棧。用同一份 prompt 分別問 Claude Code 和 Codex:「你會選什麼工具?」對每個 repo 重複問了多次。
追蹤 12 個工具類別(Package Manager、Testing、Deploy Platform、Feature Flags⋯)。
總計 1,470 筆有效回應。
不是 benchmark。是真的在問 agent:「你幫我選什麼?」
共識區:他們在哪裡意見相同
先說沒有爭議的部分。
12 個類別裡,有 7 個兩個 agent 給了相同的推薦。更有意思的是,這 7 個裡面有 6 個選的是「自己寫,不裝第三方套件」。
兩個不同公司、不同模型訓練出來的 agent,在大多數工具選擇上不約而同走向同一個結論:能自己掌控的,就自己掌控。
AI coding agent 生態系正在收斂。最佳實踐正在形成。

圖一:5 個 repo、12 類工具選擇、1,470 筆回應,先看懂研究怎麼做。

圖二:12 類工具分成兩大區域——7 類共識,5 類分歧。
DNA 顯現:5 個分歧洩漏了什麼
現在說有趣的。分歧的那 5 個類別,每一個都在說不同的故事。
Statsig:OpenAI 生態裡的工具偏好浮出水面
Codex 在 27% 的情況下推薦 Statsig(一個功能旗幟 / A/B Testing SaaS)。
Claude Code?0%。完全不碰。
這不是巧合,但也不能直接說是「刻意寫進去」。比較穩妥的解讀是:在這組任務裡,Codex 對 Statsig 的轉換率明顯更高;Claude Code 雖然知道 Statsig,卻幾乎不把它放到第一推薦。這更像是產品生態、訓練資料與工具使用文化一起留下的偏好訊號。
你的 agent 在用它所受的訓練替你做決定。
Bun:激進 vs 保守的 JS 生態系之爭
Claude Code 在 63% 的任務中推薦 Bun。Codex 只有 13%。
Bun 是近年崛起的 JS runtime(1.0 在 2023 年正式發布),主打速度快、工具鏈整合好,但生態系還在成熟中。Claude Code 的高 Bun 使用率,至少說明它在這組任務裡更容易把 Bun 推到第一順位;Codex 則更常守住 Node.js 這條穩定路線。
兩種態度沒有對錯。但你的專案依賴樹長什麼樣,部分取決於你用哪個 agent 起頭。
Cloudflare vs Vercel:生態系戰爭,不是技術選擇
Codex 傾向 Cloudflare Workers / Pages。Claude Code 傾向 Vercel。
這個差異的影響比想像中大。兩者代表完全不同的部署哲學:
- Cloudflare 路線:邊緣運算優先、Go/Rust 友善、更開放的生態
- Vercel 路線:Next.js 深度整合、前端優先、快速部署體驗
讓 Codex 幫你建 infra,它會把你導向 Cloudflare。讓 Claude 來,它傾向 Vercel。這不是中性的技術推薦。是兩家 AI 公司各自的世界觀在幫你選。

圖三:你不是只在選工具,你也在選專案起步時的默認路線。
5 大分歧對照表

圖四:五個分歧點,對應到兩種不同的開發哲學。
速度現實:Codex 快 2 倍,但快不代表什麼都贏
工具偏好說完了。很多人還是想問同一個問題:哪個比較快?
instantdb 做了一個很接地氣的測試:讓兩個 agent 從頭開始建一個多人射擊遊戲(Counter-Strike 風格),相同起點、相同 prompt,比速度和成果。
結果:在 instantdb 這組 Counter-Strike Bench 裡,Codex(GPT-5.3)多數 prompt 的完成速度接近快一倍。
註:instantdb 測試時 Codex 跑的是 GPT-5.3;GPT-5.5 已在 2026-04 釋出,Codex 後續部署可能已升級,本文比較數據以原研究版本為準。
而且兩個成品都真的可以玩,不是概念 demo,是能開多視窗、有移動有射擊的遊戲(instantdb 有附連結,你現在就可以去玩)。至少在這個測試裡,Codex 的迭代速度明顯更快。
對日常開發來說,這感受很真實:等 30 秒 vs 等 60 秒,一天幾百次 prompt,累計下來差很多。
但速度不是唯一指標。
tensorlake 的評測補了另一個面向:在部分需要理解整個 codebase、複雜業務邏輯、大型架構設計的任務上,Claude Code 的長上下文推理能力仍然被認為更有優勢。
Codex 適合快速迭代。Claude 適合把複雜系統搞清楚。

圖五:不是問誰比較強,而是看你的任務需要速度、深度,還是兩者混用。
⚡ 等等——本文寫作前三天,局勢剛剛改變了
這篇主要研究數據是 2026-05-11 收集的。就在同一天,Anthropic 發布了 Claude Code v2.1.139(GitHub Release + 官方文件 code.claude.com 雙重確認)。
我讀完更新摘要,愣了一下。
一直以來,Codex 被認為在「agentic execution」這一塊比 Claude Code 強:它有目標導向、可自動跨輪執行的代理機制,設定完成條件後讓它自動跑,不用每輪手動說「繼續」。這是很多開發者選 Codex 的原因。
v2.1.139 之後,Claude Code 補上幾個原本被視為 Codex 優勢的能力(部分功能仍為 Research Preview,僅 Pro / Max / Team / Enterprise / Cloud API 用戶可用):
- Agent View(
claude agents):統一儀表板,同時管理多個 AI 工作流。從終端機 CLI 工具,變成可以同時開多個 session 的指揮中心,支援 inline peek 與左箭頭導航 /goal命令:設定完成條件,自動跨 turn 執行直到達標,開始追上 Codex 類似的持續執行體驗- cloudbg:跳過前景直接啟動背景任務,手機觸發、過夜跑
我猜 Anthropic 內部的對話大概是:
「Codex 的 agentic 功能讓一批用戶跳槽了。」
「那我們加回去。」
「多快?」
「這週。」
不是說 Claude Code 就此贏了 Codex。用量限制、方案差異、背景任務穩定性仍然是使用前要評估的風險;123K 星背後也還有上萬個(10,940 個)open issues,社群普遍反映 rate limit 不夠用。只是競爭局勢已經不是「Codex 有、Claude Code 沒有」了。
你應該怎麼選
核心規格一覽

圖六:核心規格與三個選擇問題,幫你把比較落到實際決策。
三個問題,幫你選
Q1:你的 infra 現在在哪個生態?
- 已經在用 Cloudflare / Statsig → Codex 更對味
- 在用 Vercel / Bun → Claude Code 更順手
Q2:你的主要任務是什麼?
- 快速原型、頻繁迭代、小型專案 → Codex
- 大型架構、需要讀懂整個 repo、複雜業務邏輯 → Claude Code
- 多個任務同時跑、背景自動化 → 可評估 Claude Code v2.1.139 的 Agent View
Q3:你的計費場景偏哪一種?
- 用 token 計費較好預估、按量付費的場景 → Codex
- 已有 Claude Pro / Max 訂閱、想多會話編排 → Claude Code
最後:頂尖開發者已經開始兩個都用了。Codex 做快速原型,Claude Code 做深度分析加多 agent 編排。不是非此即彼,是各取所長。
最後想說的
下次你要選 AI coding agent,不要只看 GitHub 星數。
那個數字告訴你有多少人下載了它。但不告訴你它會幫你選哪個技術棧、把誰的世界觀寫進你的 package.json。
選了 Claude Code?你同時也選了 Vercel、Bun、和 Anthropic 對「開發者工具應該長這樣」的那套想法。
選了 Codex?你進了 Cloudflare、Statsig、和 OpenAI 生態的圈子。
而且這個局勢每幾週就在變。我寫這篇的當週,Anthropic 就發了 Claude Code v2.1.139,補上類似 Codex 的持續執行能力。你選的 agent,不只反映今天誰比較強,也反映你押注哪家公司的長期路線。
都沒有對錯。但知道自己選了什麼,和不知道自己選了什麼,是兩件完全不同的事。
Codex 幫你跑得快。Claude Code 幫你看得遠。
你用哪個 agent?有沒有發現它默默影響了你的 infra 選擇?在底下留言告訴我,我是真的好奇 👇










