強的「1.6兆參數只賣你三毛四,這不是促銷,這是戰爭
2026年5月3日,中國 AI 實驗室 DeepSeek 在毫無預警的情況下丟出兩顆炸彈:V4-Pro 與 V4-Flash。兩個都是開源權重、MIT 授權、上下文窗口長達一百萬 token 的 Mixture-of-Experts 模型。Pro 版總參數量 1.6 兆,每次推論只啟動 490 億;Flash 版總量 2,840 億,啟動僅 130 億。最離譜的是價格:Pro 版輸入每百萬 token 只要 1.74 美元,輸出 3.48 美元;Flash 版更誇張,輸入 0.14 美元、輸出 0.28 美元。同一天,一個叫 DeepClaude 的開源專案在 Hacker News 上拿到 511 個讚,它做的事情很簡單:把 Anthropic 賣月費 200 美元的 Claude Code 代理迴圈,嫁接到 DeepSeek V4 Pro 上,成本直接砍到十七分之一。
你沒看錯。十七分之一。
這不是某個新創的限時優惠,這是一場正在撕裂全球 AI 商業地圖的結構性地震。價格是核彈,規格是飛彈
如果你還在習慣用 Claude Opus 4.7 寫程式,那你每輸出百萬 token 要付 25 美元。GPT-5.5 更貴,輸出要 30 美元。DeepSeek V4 Pro 的輸出價格是 3.48 美元,不到 Opus 的七分之一、GPT-5.5 的九分之一。如果只用 Flash 版,輸出價格 0.28 美元,是 Opus 的百分之一多一點。
但便宜不等於陽春。
根據 Simon Willison 整理的價格對照表,DeepSeek V4 Flash 的定價甚至比 OpenAI 的 GPT-5.4 Nano 還低,卻擁有百萬級上下文與接近前沿的程式能力。這就像你發現路邊攤的牛肉麵不僅比米其林便宜二十倍,湯頭還比米其林更濃。更離譜的是 DeepSeek 自家公布的技術數據:在百萬 token 長上下文的場景中,V4 Pro 的單 token 浮點運算量只有前代 V3.2 的 27%,KV cache 記憶體佔用只有 10%。意思是說,它不只賣得便宜,還跑得更快、吃得更少。
這就是為什麼連 DeepSeek 的技術報告都低調地承認,V4 系列的定價策略根本不是在「參與市場競爭」,而是在重新定義市場的成本底線。
NIST 拿了尺來量,結果讓矽谷很尷尬
你可以說中國公司愛吹牛,但這次是美國國家標準與技術研究院 NIST 旗下的 CAISI 中心自己拿基準測試來量。2026 年 5 月 1 日公布的評測報告顯示,DeepSeek V4 Pro 的綜合能力大約落後矽谷前線模型八個月,而這八個月的差距,主要體現在 GPT-5 與 Opus 4.6 這類閉源巨獸身上。
換句話說,DeepSeek V4 Pro 不是最強的,但



















