
過去這一週,AI 產業迎來一波密集的產品發布。Anthropic 同時公開兩款不同定位的模型,一個走向大眾,一個鎖定資安精英。OpenAI 把 Codex 變成能真正「操作」你電腦的代理。生命科學領域迎來第一款專屬前沿模型。Cursor 讓代理的輸出從文字走向視覺化介面。Claude Design 把設計工作流程帶進對話式 AI。每一項進展都在重新定義 AI 與人類工作的邊界。
這不是零散的產品更新。這些動向串起一個清晰的趨勢:AI 正從「回答問題」走向「解決真實問題」,從被動工具走向主動代理,從通用能力走向領域專精。更準確地說,這三個方向同時發生,互相強化。當你讓代理能解決真實問題,它就需要更自主;當它能自主行動,就需要領域知識來支援決策。這是一個正向循環。
讓我們逐一看過去這週的重要發布,理解它們如何構成更大的產業圖景。
Anthropic 的雙線策略:Opus 4.7 與 Mythos Preview 的分工
Anthropic 這週做了兩件事,看似獨立,實則關聯緊密。這不是單純的產品線更新,而是一次戰略性的市場定位宣示。公司同時推出兩款模型,一個面向大眾市場,一個鎖定特定合作夥伴,這種「分流供應」的模式在 AI 產業還很少見。
首先是 Claude Opus 4.7 正式發布。這是 Anthropic 目前「公開可用」的最強模型。公司在聲明中特別強調「generally available」這個詞,顯然在區分另一款更強但供應受限的產品。這個措辭選擇本身就很耐人尋味——Anthropic 不只是說「這是我們最強的模型」,而是說「這是我們願意公開釋出的最強模型」。背後暗示的是:更強的存在,只是你拿不到。
Opus 4.7 在複雜編碼任務上優於前代 Opus 4.6,特別是那些過去需要大量人工調整和引導的領域。根據 Anthropic 的說法,Opus 4.6 在處理某些複雜程式碼庫時,需要用戶逐步指示每個步驟。Opus 4.7 則能更好地理解整體目標,自己規劃解決路徑。這聽起來像是從「執行者」到「規劃者」的升級。
圖片分析能力獲得提升,指令遵循更精確,在製作簡報和文件時展現出更多「創意」。所謂的創意,指的是能生成更有結構感、視覺層次更豐富的文件內容,而不只是單純的文字堆砌。比如在生成簡報時,Opus 4.7 會主動考慮版面配置、資訊視覺化、邏輯分組,而不是把你給它的文字片段直接排上去。這種「理解格式本身就是內容的一部分」的能力,是過去語言模型比較欠缺的。
但真正的焦點在另一邊。Opus 4.7 發布的同時,Anthropic 也在解釋為什麼 Mythos Preview 不公開。這款在內部評測中「所有指標都超越 Opus 4.7」的模型,被鎖進了玻璃櫃。公司直言不諱:Opus 4.7 甚至「沒有推進公司的能力邊界」,因為 Mythos Preview 在所有相關評估中都獲得了更高分數。
讓這句話沈澱一下。Anthropic 明確告訴市場:我們有更強的模型,我們選擇不給你用。這不是技術限制,不是運算資源問題,而是安全考量。這是一個重要的產業信號:當 AI 能力達到某個臨界點,公司會主動限制其傳播範圍。過去我們擔心「AI 是否太強」,現在我們看到 AI 公司自己決定「哪些能力能對外公開,哪些不能」。
Project Glasswing 是 Mythos Preview 的載體。這是一個網路安全倡議,合作夥伴名單一字排開:Nvidia、Apple、Amazon Web Services、Google、Microsoft、JPMorgan Chase、Broadcom、Cisco、CrowdStrike、Linux Foundation、Palo Alto Networks,另有約四十家維護或建構軟體基礎設施的組織。這不是普通的技術聯盟,而是橫跨雲端巨頭、晶片製造商、金融機構、資安公司、開源基金會的龐大陣容。
仔細看這份名單,會發現一個有趣的組合。科技巨頭如 Google、Microsoft、Amazon 既是 Anthropic 的競爭對手,又同時是合作夥伴。金融機構 JPMorgan Chase 代表高價值企業客戶。資安公司 CrowdStrike 和 Palo Alto Networks 代表專業知識來源。開源基金會如 Linux Foundation 和 Apache Software Foundation 代表公共基礎設施維護者。這意味著 Anthropic 在建立一個跨產業的「資安防禦聯盟」,而不只是單純的商業合作。
這些合作夥伴能使用 Mythos Preview 掃描自家系統,尋找高風險漏洞。根據 Anthropic 公開的資訊,Mythos Preview 在最近幾週標記了「數千個高嚴重性漏洞」,包括「所有主要作業系統和網頁瀏覽器」中的問題。更值得注意的是,這個過程「完全自主,沒有任何人工引導」。
這是一個相當激進的宣示。Anthropic 在說:我們的模型能獨立找到人類可能遺漏的漏洞,而且不需要人類告訴它「去找漏洞」或「怎麼找漏洞」。整個過程——理解系統架構、識別潛在弱點、生成測試代碼、驗證漏洞——全部由模型自己完成。這超越了「自動化測試」的範疇,進入了「自主研究」的領域。
Anthropic 的網路安全負責人 Newton Cheng 接受 The Verge 採訪時表示,目標是讓防禦方獲得「先發優勢」。長期以來,資安領域存在攻防不對稱:攻擊者只需要找到一個漏洞,防禦者需要堵住所有漏洞。而且攻擊者往往是主動的,防禦者是被動的——先有攻擊,才有修補。AI 有機會翻轉這個不對稱,讓防禦方也能大規模掃描,而且在速度上遠超人類紅隊測試。更重要的是,AI 能持續監控,不用等攻擊發生才反應。
但這個模式引發了一些根本性問題。如果 Anthropic 決定誰能用、誰不能用這種「能找到所有作業系統漏洞」的能力,這個權力集中在一間營利公司手上,會不會創造新的風險?即使 Anthropic 目前承諾投入一億美元的使用額度,加上四百萬美元直接捐款給 Linux Foundation 和 Apache Software Foundation,長期來看,這個計畫可能演變成付費服務,成為公司的新營收來源。到那時,有能力支付的公司能獲得更好的安全保護,沒有能力的則被排除在外。
另一個問題是:這種「受限能力」模式會不會成為產業常態?如果 Anthropic 可以鎖住 Mythos,其他公司會不會跟進?我們會不會看到一個分層市場,高價值能力只給菁英客戶?這與「AI 民主化」的論述背道而馳,但從商業角度看,這是最理性的策略。你創造稀缺性,然後賣給出價最高的人。
Anthropic 同時也在與美國政府接觸。公司表示已向政府高層簡報 Mythos 的能力,包括其進攻和防禦性的網路能力。這是在該公司與特朗普政府公開衝突之後的發展,顯示 Anthropic 並未因此切斷與政府的合作管道。事實上,主動向政府展示能力可能是修補關係的一部分——「你看,我們的能力對國家安全也有幫助」。
回到 Opus 4.7,它的定價維持與前代相同:輸入每百萬 token 五美元,輸出每百萬 token 二十五美元。這是一個相對穩定的定價策略,與 OpenAI 的價格戰形成對比。Anthropic 似乎在說「我們在能力上競爭,不在價格上競爭」。對企業客戶來說,每百萬 token 幾美元的差異不如模型品質重要,這是一個合理的策略。
早鳥測試者名單包括 Intuit、Harvey、Replit、Cursor、Notion、Shopify、Vercel、Databricks。這些公司共同組成 Anthropic 的商業護城河,涵蓋財務軟體、法律科技、開發工具、協作平台、電商基礎設施、雲端運算等領域。值得注意的是 Cursor 也在其中——這間與 Anthropic 直接競爭 AI 程式設計工具市場的公司,同時是 Anthropic 的客戶。這在科技產業並不罕見,但反映了 AI 能力層與應用層的交織關係。
Anthropic 為 Opus 4.7 設計了一套新的資安防護措施,並表示會從這些措施的部署中學習,作為未來「廣泛發布 Mythos 等級模型」的準備。他們推出了一個「網路驗證計畫」,讓資安專業人士獲得權限使用 Opus 4.7 進行漏洞研究,同時放寬部分安全限制。這是一種「受控放鬆」——不是完全開放,而是在特定用途、特定用戶範圍內降低門檻。
從投資人角度來看,Anthropic 正在建立一個「分層能力供應」的商業模式。一般用戶和企業客戶使用 Opus 系列和 Sonnet 系列,而高價值、高風險的客戶則能存取 Mythos 等級的能力。這種分層不只是技術考量,也是商業考量。高價值客戶願意為「更強能力」支付溢價,而 Anthropic 則能透過控制供應來維持定價能力。某種程度上,這類似奢侈品牌的手法——生產限量版,給 VIP 客戶,創造品牌光環。
OpenAI 讓 Codex 操作你的電腦
OpenAI 這週發布的 Codex 更新,核心概念只有一句話:Codex 現在能操作你的電腦。這不是比喻,不是誇張,而是字面意義上的能力。
公司推出的「背景電腦使用」功能,讓多個代理能同時在你的 Mac 上運作。這些代理能看到螢幕、點擊按鈕、輸入文字、拖曳物件,擁有自己獨立的游標。關鍵在於「背景」兩個字:你不用的時候它們繼續工作,你用其他應用程式時它們不會干擾。你在瀏覽網頁時,Codex 可以在另一個視窗編譯程式碼;你在開視訊會議時,Codex 可以在後台跑測試。這是一個相當技術性的突破,因為它意味著代理不再需要獨佔你的工作階段。
對前端開發者來說,這項功能的價值特別明顯。很多視覺化調整不需要 API 介面,只需要有人能操作介面。比如調整 CSS 效果:過去你需要反覆修改代碼、重新整理瀏覽器、截圖比較、再修改。現在你能告訴 Codex「把這個按鈕的圓角改成八像素、陰影調淡一點」,它會自己操作瀏覽器、觀察效果、迭代調整,直到達到你的要求。這不只是自動化,而是「自動化迭代」——它會自己判斷「好還不夠好」然後繼續改。
測試應用程式是另一個場景。你想確認某個功能在不同解析度下是否正常顯示,過去需要手動調整瀏覽器視窗大小、截圖、比較。現在 Codex 能自己調整視窗、檢查佈局、記錄問題。甚至可以在多個瀏覽器版本上同時測試——既然多個代理能並行工作。
Codex 也開始原生支援瀏覽器。應用程式內建瀏覽器視窗,你可以在頁面上直接下註解,給代理精確指令。比如「把這個區塊的間距縮小到十六像素」「這裡的字體顏色跟設計稿不一樣,修正成 #333」。這種方式比用文字描述「右上角那個藍色按鈕」更直觀,也更不容易產生誤解。你指哪裡,它改哪裡。
OpenAI 表示,目前的支援範圍是前端和遊戲開發,未來會擴展到讓 Codex 能「完全控制瀏覽器」,不只是 localhost 上的網頁應用。這意味著未來 Codex 可能能幫你操作任何網站——填表單、導航介面、執行重複性操作。當然,這也帶來資安和隱私風險。一個能「操作你電腦」的 AI,理論上能存取你電腦上的所有東西。OpenAI 如何建立適當的安全邊界,將是關鍵問題。
圖片生成能力也加入陣容。Codex 現在能用 gpt-image-1.5 產生和迭代圖片。關鍵不是它能生成圖片——很多工具都能——而是它能把圖像生成整合進工作流程。想像你在做一個簡單的遊戲原型,需要幾個素材:主角、敵人、背景、道具。過去你要去素材網站找,或者用 DALL-E 生成再下載回來。現在 Codex 能自己生成素材、整合到遊戲中、測試效果,一次完成。這大幅壓縮了「概念到原型」的時間。
九十個新插件同時上線,這是一個相當驚人的數量。其中有 CI/CD 工具 CircleCI 和 Render,程式碼審查工具 CodeRabbit,專案管理工具 Atlassian Rovo 和 GitLab Issues,企業軟體 Microsoft Suite,資料庫工具 Neon by Databricks,影片處理工具 Remotion。這些插件不是單純的 API 接口,而是讓代理能在不同工具間流暢切換,完成跨平台工作流程。
舉個具體例子。一個開發者發現線上環境有 bug,需要排查。過去的工作流程是:在監控平台上看警報,去日誌服務查錯誤訊息,在程式碼庫中定位相關代碼,在 CI 系統看是否有相關變更,最後修復並部署。中間要切換多個工具、複製貼上資訊、手動關聯不同來源的數據。現在一個 Codex 代理能串起這個流程:看警報、查日誌、定位代碼、比對變更、生成修復建議,全部自動完成。開發者只需要確認「這個修復是對的」。
記憶功能是另一個亮點。Codex 現在能記住之前經驗中有用的脈絡。這包括你的程式碼風格偏好——喜歡用 tabs 還是空格、註解的詳細程度、命名慣例是 snake_case 還是 camelCase。包括你曾經犯過的錯誤與修正方式——上次你在處理時間區域問題時踩了坑,下次類似任務 Codex 會自動避開。包括專案特定的架構決策——為什麼你選了 PostgreSQL 而不是 MongoDB、為什麼你用 GraphQL 而不用 REST。
這些記憶會跨專案累積。你在一個專案學到的編碼偏好,會自動帶到下一個專案。這意味著 Codex 不只是「越用越順手」,而是「越用越懂你」。這是從「工具」到「協作者」的質變。工具永遠一樣,協作者會學習你的習慣並調整行為。
自動化功能也獲得重大擴展。Codex 現在能排程未來工作,自動喚醒繼續長期任務,可能跨越數天或數週。想像你有一個複雜的 refactoring 任務,需要修改數百個檔案、跑完整測試套件、確保不破壞現有功能。你可以告訴 Codex「這週把這個模組重構完」,它會排程工作,每天做一部分,遇到問題時停下來讓你決定,完成後自動提交 PR。你不需要盯著它,只需要在它需要你時回應。
更值得注意的是主動性。Codex 現在會主動建議有價值的工作。結合專案脈絡、連結插件和記憶,它能告訴你「今天該從哪裡開始」。具體例子:它能看到你有三個待審查的 PR、兩個需要回應的 Slack 討論串、一個快到 deadline 的 JIRA 任務。然後它會排序:這個 PR 已經兩天了,先看這個;那個 Slack 討論涉及安全問題,也要優先處理;JIRA 任務還有三天的 buffer,可以排後面。這從被動回答問題轉變為主動規劃工作。
這些更新描繪了一個清晰的圖景:Codex 正從「幫你寫程式碼」走向「幫你完成軟體開發生命週期的所有階段」。寫程式碼只是其中一環,還要檢查輸出、審查變更、與代理協作、管理專案狀態、規劃日常工作——全部在一個工作空間完成。電腦使用功能目前僅支援 macOS,會逐步推展到歐盟和英國用戶。這個順序反映了監管環境的差異:歐盟對 AI 工具的政策框架更嚴格,部署需要更多時間評估風險。
GPT-Rosalind:生命科學終於有自己的前沿模型
藥物研發的時間線很殘酷:從目標發現到監管批准,平均十年到十五年。這不是誇張,而是美國 FDA 的真實數據。而且這是成功的藥物。更多藥物在臨床試驗階段就失敗了,前功盡棄。最早期的發現階段有任何進展,都會在後續階段成倍放大。
更好的目標選擇意味著後期臨床試驗失敗率降低。很多藥物之所以在臨床三期失敗,是因為靶點本身有問題——它不如預期重要,或者它會影響其他重要通路。如果在發現階段就能更準確判斷靶點的治療潛力,後面的投資就更可能成功。
更強的生物學假設意味著實驗設計更精確。一個好的假說應該是可測試的、可證偽的、有預測力的。但生物系統太複雜,很多假說只是「可能這樣」。如果 AI 能幫助研究者基於大量數據生成更可靠的假說,實驗成功率會提升。
更高品質的實驗意味著決策更可靠。實驗設計涉及控制變數、選擇測量方法、決定樣本數、設定門檻值。每個選擇都影響結果的可靠度。AI 能幫助研究者基於既有研究和統計最佳實務做出更好的設計。
OpenAI 這週發布的 GPT-Rosalind,專為生命科學研究打造。這是該公司「生命科學模型系列」的首發,優化方向明確:生物學、藥物研發、轉化醫學。模型結合改善的工具使用能力,以及在化學、蛋白質工程、基因組學的更深理解。
模型名稱取自 Rosalind Franklin,一位在 DNA 結構發現中做出關鍵貢獻卻長期被低估的科學家。她的 X 光繞射照片「Photo 51」是 Watson 和 Crick 建立 DNA 雙螺旋模型的關鍵證據,但她本人在獲得應有榮譽前就因癌症去世。OpenAI 選擇以她命名這個模型,傳遞了幾重訊息:致敬被忽視的科學貢獻、認可紮實研究的價值、也暗示這個模型會關注「結構」——從蛋白質到基因到分子。
生命科學研究的流程長期被工作本身的複雜性限制。一個典型的靶點驗證研究可能涉及閱讀數百篇論文——了解目標疾病的病理機制、現有治療方法的局限、靶點的生物學背景。然後要查詢多個基因組資料庫——這個靶點在不同組織的表達量、在不同人群的變異情況、與其他基因的相互作用。接著要分析自己實驗室的定序數據——確認實驗模型的基因組是否正確、檢查有無汙染、比對參考序列。還要比對臨床試驗結果——看看是否有其他公司針對同一靶點的藥物。最後設計後續實驗——證明這個靶點確實有開發價值。
這些工作流程時間密集、碎片化、難以擴展。一位研究者可能花幾週時間在做「文獻綜述」類的工作——把散落各處的資訊整合成一幅完整的圖景。這是必要的基礎工作,但也是低效的。如果有工具能加速這個部分,研究者就能花更多時間在做真正的研究設計和實驗驗證。
GPT-Rosalind 的設計目標就是加速這些流程。不只是讓既有工作更有效率,而是幫助科學家探索更多可能性。當一個研究者有了一個新想法,他需要快速評估這個想法的可行性——已有多少人在做相關方向、有沒有專利障礙、有哪些數據支持或反對。如果這個評估從「需要一個月文獻調研」變成「一天內得出結論」,研究者就能嘗試更多想法,找到真正的創新方向。
OpenAI 公布了一系列評測結果,都指向「這不只是通用模型的微調版本」。在 BixBench(針對真實世界生物資訊學和資料分析設計的基準)上,GPT-Rosalind 在已公開分數的模型中領先。這個基準測試的不是簡單的生物知識問答,而是實際的數據分析能力——如何解讀 RNA-seq 結果、如何識別重要的變異位點、如何推斷物種間的演化關係。
在 LABBench2(測量文獻檢索、資料庫存取、序列操作、協議設計等研究任務的基準)上,GPT-Rosalind 在十一項任務中的六項表現優於 GPT-5.4。最顯著的改進來自 CloningQA,這項任務需要端到端設計 DNA 和酶試劑的分子選殖協議。選殖協議是分子生物學的日常操作,但設計一個完整的協議需要考慮載體選擇——要插入哪個質體、用哪個啟動子、要不要抗藥標記;限制酶位點——在哪裡切開 DNA、如何產生黏性端點;引物設計——PCR 引物要多長、退火溫度多少;還有抗生素篩選、轉化效率計算等。這考驗整合推理能力,不是背誦知識就能解決。
與 Dyno Therapeutics 的合作測試提供了另一種視角。這家公司專注 AI 設計基因療法,測試任務是 RNA 序列到功能的預測和生成。模型被給定一個 RNA 序列,要預測它會表現出什麼功能特徵——表達量、穩定性、免疫原性。然後反過來,給定目標功能,要設計一個能達到的序列。這是「序列到功能」的雙向任務,是基因療法開發的核心問題。
當直接在 Codex 應用程式中評測時,模型的最佳十次提交在預測任務上排名高於人類專家的第九十五百分位,在序列生成任務上約第八十四百分位。五十七位人類 AI 生物領域專家的歷史分數作為對照組。這是一個很有說服力的結果:AI 不是只比一般人強,而是接近或超過這個領域的最強專家。
但要注意評測方式的限制。「最佳十次提交」意味著模型生成了十個候選方案,取最好的。這在實際應用中是合理的——模型可以快速生成多個候選,研究者在其中選最好的。但這也意味著「第五十七名的人類專家」可能只提交了一個最佳方案,而模型提交了十個。這不是不公平,但解讀結果時要注意脈絡。
OpenAI 同時推出 Life Sciences 研究插件,可在 GitHub 取得。這個套件包含一組模組化技能,支援常見研究工作流程,涵蓋人類遺傳學——ClinVar 變異註釋、GWAS 數據分析;功能基因組學——RNA-seq 分析、Chip-seq peak calling;蛋白質結構——UniProt 查詢、PDB 結構檢索;生物化學——反應路徑分析、代謝網路構建;臨床證據——ClinicalTrials.gov 搜尋、文獻挖掘;公共研究發現——GEO 資料集探索、SRA 定序數據存取。
這些技能作為編排層,幫助科學家處理廣泛、模糊、多步驟的問題。比如研究者問「哪些基因與阿玆海默症的晚期發病相關」,模型會自動:檢索相關 GWAS 研究、提取顯著基因、查詢這些基因的功能註釋、比對 AD 資料庫中已知基因、整理成一份報告。整個流程不需要研究者逐個去查每個資料庫。
合作夥伴名單包括 Amgen、Moderna、Allen Institute、Thermo Fisher Scientific。Amgen 是老牌製藥公司,有豐富的藥物開發經驗。Moderna 是 mRNA 技術先驅,COVID 疫苗的成功讓他們聲名大噪。Allen Institute 專注基礎科學研究,特別是細胞和神經科學的大數據專案。Thermo Fisher 提供實驗室設備和試劑,是研究機構的主要供應商。
這些合作夥伴代表整個價值鏈:從基礎研究(Allen Institute)到藥物開發(Amgen、Moderna)到實驗資源(Thermo Fisher)。OpenAI 不是在賣一個單點解決方案,而是在建立一個「AI 加速藥物研發」的生態系。每個合作夥伴都能在自己的環節驗證模型的價值,同時貢獻數據和反饋幫助模型改進。
存取方式採用「可信賴存取」架構,這與 Mythos Preview 的模式類似但更寬鬆。合格的美國企業客戶才能申請,需要通過資格審查——確認是做正當科學研究、有公共效益預期;建立存取管理——誰能使用、用於什麼目的;設置組織治理控制——如何防止濫用、如何追蹤使用。在研究預覽期間,使用這個模型不會消耗現有額度或 token。這是一個相當慷慨的條件,顯示 OpenAI 想要鼓勵早期採用者,快速累積使用案例和改進回饋。
Los Alamos National Laboratory 的參與特別值得注意。這間美國國家實驗室以核武研究聞名,但也做大量民用科學研究。他們正在探索 AI 引導的蛋白質和催化劑設計,包括 AI 系統修改生物結構同時保留或改善關鍵功能屬性的能力。這類研究具有雙重用途潛力——既能用於開發新藥、改良工業酶,也可能用於設計更危險的生物製劑。
OpenAI 顯然認為在可信賴存取架構下,與國家實驗室合作是可控的風險。Los Alamos 有嚴格的安全協議和監管,不是任意公司。而且他們做的「修改生物結構同時保留功能」的研究本身就是防禦性的——理解蛋白質如何能被設計,才能更好地預測和防止惡意設計。
這是「領域專用模型」時代的第一個重要案例。通用模型會持續進化,但特定產業的工作流程需要更深層的領域整合。生命科學只是開始,其他產業會陸續跟進。金融服務需要能理解監管文件、財報數據、交易模式的模型;法律實務需要能檢索案例、分析判決、起草合約的模型;能源產業需要能優化電網、預測負載、管理資產的模型。誰能做出真正理解這些領域的模型,誰就能抓住高價值的企業市場。
Cursor Canvases:代理輸出從文字走向視覺化介面
Cursor 這週推出了 Canvases 功能,表面上是一個功能更新,實際上可能改變代理與人類協作的基本模式。概念很簡單:讓代理能創建視覺化介面,而不是堆砌文字牆。但這個「簡單」變化,衝擊的是「代理應該如何傳遞資訊」的根本假設。
具體來說,Cursor 現在能用 React 為基礎的 UI 程式庫渲染畫布,包含表格、方框、圖表、時間軸等元件。代理能用這些元件創建儀表板、客製介面、互動視覺化。用戶也能創建「技能」教導代理如何生成不同類型的畫布。比如 Docs Canvas 技能能讓代理生成專案架構圖,視覺化整個程式碼庫的模組依賴關係;Eval Canvas 技能能讓代理生成測試結果分析介面,把失敗案例分組展示。
Cursor 團隊分享了幾個內部使用案例,都指向同一個價值:當數據量大到一定程度,文字表格變得難以閱讀。這是人類認知的限制。我們的工作記憶容量有限,一次只能處理幾個資訊區塊。當代理輸出三頁的文字,讀者需要反覆捲動、回顧、在腦中重組資訊。視覺化介面把多維資訊壓縮成二維平面,一眼可見結構和模式。
事件響應儀表板案例很有代表性。當服務出問題時,工程師需要快速定位原因。Datadog 顯示時間序列數據——流量、延遲、錯誤率。Databricks 顯示資料處理狀態——哪些 job 成功、哪些失敗。Sentry 顯示錯誤追蹤——堆疊追蹤、用戶影響、發生頻率。過去代理會把這些數據輸出成 Markdown 表格,工程師要讀幾十行數字才能猜測「可能三分鐘前有個尖峰」。
現在代理直接畫出時間序列圖,把來自不同工具的數據疊加在同一時間軸上。工程師一眼看到「錯誤率在 14:03 分突然升高,同時流量有個尖峰,對應到一個 Databricks job 失敗」,不需要在多個數據來源間手動關聯。而且代理可以做更複雜的整合——把本地除錯檔案的數據也疊上去,或者把相關 PR 的變更時間標在時間軸上,讓潛在因果關係更明顯。
PR 審查介面案例也展示了視覺化的獨特價值。現代軟體開發中,PR 越來越大。一個功能可能涉及數十個檔案、數千行變更。傳統工具對所有變更一視同仁——按檔案名排序,或者按變更類型(新增/刪除/修改)分組。工程師需要自己判斷「哪些變更是關鍵、哪些是次要」。
代理現在能呈現「這三處變更是核心邏輯改動,需要仔細審查;那五處變更是格式調整,可以快速掃過;這邊是測試補充,確認覆蓋率即可」。針對複雜演算法,代理甚至能生成偽代碼表示,用更易讀的形式解釋實際實現。比如一段複雜的遞迴邏輯,代理可以生成一個簡化版本加旁註,讓審查者先理解意圖再看實現。
評測分析案例更是直接影響生產力。Cursor 團隊分享了一個具體故事。他們持續在做模型評測,每次評測會產生大量結果——哪些測試通過、哪些失敗、失敗原因是什麼。過去工程師要逐一檢視失敗的請求,在一個個 JSON 或日誌中尋找模式。這個過程繁瑣到讓他們曾經考慮建一個專門的網頁應用來自動化分析。
但建網頁應用本身也是成本——要設計介面、開發後端、部署維護。而且需求會變——今天要看這個維度的失敗,明天要看那個維度。固定介面永遠追不上變化的需求。
最終他們選擇用 Cursor 技能解決。讓代理讀取所有測試結果、按失敗模式分組、生成互動式畫布讓工程師探索。結果不只省下了建網站的時間,還發現了一些過去被隱藏的測試 harness bug。最近這個方法幫助他們用更少精力發布兩個新模型,因為他們能更快定位問題根源。
Cursor 同時提到了「autoresearch」實驗。這個概念來自 Karpathy 的 autoresearch 專案——讓 AI 代理自主做研究,迭代假說和實驗。Cursor 把這個概念應用到效能優化問題上。代理會自主提出優化假說、設計實驗、執行測試、分析結果、提出新假說。這是一個完整的科學方法循環,只是由代理完成。
Canvases 在這個場景的價值在於:代理能用畫布呈現研究進度,讓人類隨時 check in。你不需要等代理跑完一整輪實驗才看結果,而是隨時能看到「目前已經測試了哪些假說、結果如何、下一步要測什麼」。這讓「人在回路」變得可行——代理跑自己的研究,人類在需要時介入決策。
這背後是一個更大的企圖:增加人類與代理之間的資訊頻寬。純文字是很強大的溝通工具,但人類處理文字的速度有限。閱讀速度因人而異,但大概在每分鐘兩百到四百詞之間。當代理輸出的資訊量越來越大,純文字很快就會成為瓶頸——人類讀不完,無法有效監督。
視覺化介面是自然的下一步。人類處理視覺資訊的能力遠高於文字。我們可以一眼識別圖表中的趨勢、異常值、關係模式。當代理能把複雜資訊視覺化,人類吸收速度就大幅提升。這是從「代理輸出人類要讀的內容」到「代理輸出人類能理解的結構」的轉變。
畫布功能在 Cursor 3.1 版本提供,是 Cursor 3 大更新的一部分。Cursor 同時推出了設計模式(讓用戶能用拖放方式調整代理生成的代碼)和升級版語音輸入,都是在同一個方向上努力:讓人類表達意圖的方式更豐富,讓代理傳遞資訊的方式更多元。
Claude Design:Anthropic Labs 的設計工具試水
同一天,Anthropic Labs 推出 Claude Design。這是基於 Opus 4.7 的設計產品,讓用戶能與 Claude 協作創建設計稿、原型、簡報、行銷素材、銷售頁面等視覺內容。
Claude Design 以「研究預覽」形式提供給付費訂閱者。「研究預覽」這個詞通常意味著產品還在早期測試階段,功能和介面可能變化。這也是 Anthropic 首次以「設計」作為獨立產品功能發布,而不是作為聊天功能的附屬能力。
定位很清楚:不是要取代設計師,而是加速設計師的工作流程。從概念到原型、從草稿到成品,AI 成為協作者而非替代者。這個定位反映了 Anthropic 對「AI 替代人類」敘事的謹慎態度,也反映了這個產品還處於早期的事實——它還沒有完善到能真正「取代」專業設計師。
設計領域的 AI 工具競爭已經相當激烈。Adobe 已經深度整合 AI 到 Creative Cloud 套件——Photoshop 的 Generative Fill、Illustrator 的 Text to Vector、Firefly 服務的圖像生成。Figma 在開發者大會上展示了 AI 輔助設計功能,包括自動生成 UI 元件和建議版面。Canva 的 Magic Studio 提供從文字生成設計、自動調整尺寸、一鍵品牌化等功能。
這些公司的共同特點是:他們從設計軟體出發,往 AI 方向走。他們已經有設計師用戶,AI 功能作為附加選項進入現有工作流程。門檻很低——設計師不需要學新工具,只要在熟悉的軟體裡點擊新按鈕。
Anthropic 的路徑相反:從模型能力出發,往設計工具走。Claude Design 不是設計軟體的 AI 功能,而是 AI 模型的設計輸出能力。這條路的優勢是理論上限更高——不受現有設計軟體的功能框架限制,可以重新想像「設計」這件事在 AI 時代應該長什麼樣。劣勢是缺乏既有用戶基礎——需要說服設計師離開熟悉的工具來試這個新東西。
短期來看,設計軟體巨頭有優勢。設計師每天都在用 Figma、Photoshop、Illustrator。他們的檔案在那裡、協作流程在那裡、團隊習慣在那裡。AI 功能作為附加選項進入他們的工作流程,阻力最小。
長期來看,如果「用自然語言描述你想要的設計」真的能產出高品質輸出,那麼「軟體操作能力」的重要性會下降,「想法表達能力」的重要性會上升。這是一個根本性的轉變。過去設計師的競爭力部分來自「會用這些複雜的軟體」,如果軟體操作被 AI 代勞,設計師的競爭力會更多來自「能提出好的設計想法」和「能判斷設計好壞」。這對某些設計師是機會,對某些是威脅。
這也反映了 Anthropic 與 OpenAI 不同的產品策略。OpenAI 的 Codex 功能都整合在 Codex 應用程式中,一個統一的開發環境。Anthropic 則把不同能力分散到不同產品線——Claude.ai 做對話、Claude Code 做開發、Claude Design 做設計。這個策略的好處是各產品更聚焦,壞處是用戶需要在不同工具間切換。
Claude Design 發布的時機點也有意思。同一週,OpenAI 讓 Codex 能生成圖片、Cursor 讓代理創建視覺化介面、Anthropic 自己發布 Opus 4.7 並宣稱其在「創建簡報和文件時展現更多創意」。這些動向的共同主題是:AI 不只輸出文字,開始輸出視覺內容。這是自然語言模型能力拓展的一個重要方向——從「語言到語言」到「語言到視覺」。
如果只記一件事
AI 正從「能做什麼」走向「能解決什麼問題」。這句話值得反覆咀嚼,因為它捕捉了這週所有發布的核心脈絡。
過去我們問「AI 能做這件事嗎」,答案是二元的有無。現在的問題變成「AI 能不能把這件事做得夠好、夠可靠、夠自主,讓我能放心交給它」。這不是二元問題,而是光譜——不同任務、不同場景、不同用戶有不同的「夠好」標準。一個部落格作者對「寫摘要」的夠好標準和一個製藥公司研究員對「設計實驗」的夠好標準,完全不是同一個量級。AI 的進步就在於逐步提高這個「夠好」覆蓋的範圍。
Anthropic 把最強模型鎖進資安防護圈,只給精選夥伴使用。這是一個明確的宣告:能力達到某個臨界點,必須控制傳播。過去這種限制來自技術瓶頸——模型不夠強所以做不了那些事。現在限制來自安全考量——模型太強所以不能隨便給。這是產業成熟的一個標誌,但也帶來新的倫理問題:誰有權決定哪些能力該被限制?這個權力應該在誰手上?政府?公司?還是某種國際治理機構?
OpenAI 讓代理操作你的電腦,在工作現場自主行動。這是另一個宣告:代理可以離開沙盒,進入真實環境。過去我們擔心讓 AI 操作系統會有安全風險,現在我們接受這個風險換取生產力。這不是魯莽,而是經過評估的權衡:風險存在但可控,收益顯著且實際。當然,風險管控會是下一個戰場——如何讓代理能操作但只操作「該操作的」?
生命科學有了專屬的科研模型,從文獻搜尋到實驗設計一條龍。這是領域專用化開始的信號。通用模型會繼續存在,但高價值產業會要求更深的領域整合。生命科學只是第一個,因為它最有錢也最需要。金融服務會緊隨其後,然後是法律、製造、能源。每個領域都有自己的資料庫生態、文獻體系、工作流程,通用模型難以覆蓋這些深層需求。誰能在特定產業做到真正的「理解」,誰就能佔領那個市場。
Cursor 讓代理創建視覺化介面,不再只是吐出文字牆。這是人機互動範式可能轉變。文字是強大的溝通媒介,但也是有限制的。人類處理文字的速度有限,閱讀大段文字需要時間和注意力。當代理輸出的資訊量越來越大,文字介面會成為瓶頸。視覺化介面提升了資訊傳輸的頻寬——同樣的資訊,圖表比表格更快吸收。這不只是美化,而是結構性改變。
Claude Design 把設計工作流程帶進模型的能力範圍。這是 AI 能力從語言到視覺的拓展。語言模型生成文字,這是定義。但文字和創意、文字和設計、文字和視覺呈現之間有鴻溝。Claude Design 嘗試跨越這個鴻溝,讓「用文字描述想法然後產出視覺成品」成為現實。這條路還在起步,技術距離專業設計師的輸出品質還有差距,但方向已經確立。
這些不是獨立的功能更新,而是同一條河流的不同支流。方向很清楚:更自主、更深入工作現場、更領域專精。AI 不再只是回答問題,它開始解決問題。不只是「告訴你怎麼做」,而是「幫你做好」。
這個轉變會持續加速。下一季可能會看到更多領域專用模型——金融機構會有自己的模型、法律事務所會有自己的模型、能源公司會有自己的模型。會看到更多能自主行動的代理——不只是操作電腦,還能操作設備、操作軟體、管理工作流程。會看到更多人機互動模式的創新——不只是文字輸出,還有多模態輸出、自適應介面、動態視覺化。
對開發者、研究人員、設計師來說,現在是學習這些新工具的最佳時機。不是為了追趕風潮,而是因為這些工具正在重新定義「工作」本身。五年後回顧,我們可能會說「這週是轉捩點——AI 從實驗室走進工作現場的一週」。或者可能會說「那只是開始,真正的大浪還在後面」。無論如何,現在睜大眼睛看著、動手試著、腦中想著如何把這些能力融入自己的工作流程,都是對自己未來的投資。因為這不是一個會停下來的趨勢,這是一個會重新塑造產業形貌的浪潮。那些早一步理解和適應的人,會比等待和觀望的人更有競爭力。

















