Claude 4.5 Sonnet ：Anthropic 在 AI 編碼與 Agent 賽道的關鍵一步

2025/09/30 更新2025/09/30 發佈閱讀 7 分鐘

在人工智慧模型推陳出新的浪潮中，我們很容易對各種版本的更新感到麻木。然而，Anthropic 公司於 2025 年 9 月 30 日發布的 Claude 4.5 Sonnet，值得我們停下腳步探究。

Anthropic 這次並沒有試圖與 GPT-5 等通用模型正面對決，而是選擇將資源集中在兩個關鍵領域：高階的程式編寫能力與能長時間自主運作的 AI 代理人（Agentic workflows）。這次更新的重點不在於創造一個「什麼都會」的模型，而是要打造一個在特定專業領域「做得最好」的工具。

Introducing Claude Sonnet 4.5

Claude 4.5 Sonnet 主要亮點

為「寫程式」而生：稱霸 SWE-Bench 的實力

這次更新最引人注目的，莫過於 Claude 4.5 Sonnet 在程式編寫評測上的優異表現。其中，它在「SWE-Bench Verified」項目上獲得了 77.2% 的高分，超越了 GPT-5 的 72.8%。

SWE-Bench不同於傳統的程式解題測驗，SWE-Bench 是一個模擬真實軟體開發情境的評測基準。它要求 AI 模型直接處理從 GitHub 上收集的真實軟體問題（issue），並自動生成解決問題的程式碼補丁（patch）。這不僅考驗 AI 的程式生成能力，更挑戰它理解複雜現有程式庫、追蹤問題根源、並在多個檔案之間進行協調修改的綜合能力。

換句話說，SWE-Bench 測試的是 AI 能否像一位真正的人類工程師那樣去解決問題。Claude 4.5 Sonnet 在這項評測上的領先，意味著它在處理現實世界中那些混亂且充滿挑戰的軟體維護任務上，具備了更可靠的能力。這對於提升開發效率、自動化程式修復等應用場景，有非常實際的價值。

超長續航力：能專注 30 小時的 AI 代理人 (Agent)

如果說程式編寫能力的提升是「點」的突破，那麼 AI 代理能力的強化則是「線」的延伸。Claude 4.5 Sonnet 的一大賣點是其能夠在長達 30 小時的複雜任務中，維持焦點和上下文記憶，不會「分心」或「遺忘」最初的目標。

這項能力解鎖了許多過去難以實現的應用。想像一下，你可以部署一個 AI 代理來執行以下任務：

金融市場監控：讓 AI 代理持續追蹤數十個市場指標、分析新聞情緒，並在發現異常交易模式時即時提出警示，整個過程持續超過一天。
網路安全防禦：部署一個 AI 代理全天候監控公司網路流量，分析潛在的入侵行為，並根據預設的規則自動執行初步的防禦措施。
供應鏈管理：讓一個 AI 代理負責追蹤橫跨全球的貨運狀態，處理突發的延遲事件，並自動與相關方溝通協調，確保供應鏈順暢。

這些任務的共同點是「長時間」與「多步驟」。過去的模型在處理這類問題時，常常因為上下文視窗的限制或注意力衰減，導致任務執行到一半就偏離軌道。Claude 4.5 Sonnet 的長效專注力，使其成為建構可靠企業級自動化系統的理想選擇。

Claude 4.5 vs. GPT-5：一場精準打擊與全面覆蓋的對決

將 Claude 4.5 Sonnet 與市場上的另一個頂級模型 GPT-5 進行比較，可以清楚看見兩家公司不同的發展策略。

評測表現：在多個與程式編寫、終端機操作、作業系統互動相關的評測中，Claude 4.5 Sonnet 均取得領先。然而這並不代表 GPT-5 就比較弱，它在更廣泛的通用知識、創意生成和設計理解方面，依然保有強大的實力。
功能強項：Claude 4.5 Sonnet 的優勢在於其專業化的深度。它在工具使用（高達 98% 的準確率）和多步驟任務的可靠性上表現突出，特別適合開發者和需要高度穩定性的企業應用。GPT-5 的強項則在於其廣泛的通用性與靈活性，它在除錯、遵循複雜設計指令等方面更受一些用戶青睞。
定價與效益性：Claude 4.5 Sonnet 的 API 定價與前代 Sonnet 4 持平，為每百萬輸入 tokens 3 美元。GPT-5 的定價則相對更具成本效益，為每百萬輸入 tokens 1.25 美元。價格上的差異也反映了兩者的市場定位：Claude 4.5 Sonnet 瞄準對性能和可靠性要求極高的專業及企業市場，而 GPT-5 則兼顧了大規模、高流量的通用應用場景。

總言之，Anthropic 目前選擇在 AI 專業應用的賽道上深耕，而 OpenAI 則繼續鞏固其在通用 AI 領域的領導地位。

TN科技筆記的觀點

Anthropic 這次的策略非常清晰，不在通用能力上與 GPT-5 硬碰硬，而是選擇在「程式編寫」與「AI 代理」這兩個高價值專業領域做到極致。Claude 4.5 就像一位專注於長距離、高耐力的馬拉松選手，而 GPT-5 則更像一位各項能力均衡的十項全能冠軍。這種分化對整個產業是健康的，它為用戶提供了更豐富、更貼合特定需求的選擇。

GPT-5 跟 claude 4.5 的相繼推出之後，接下來是不是也可以開始期待 Google 的 gemini 3 推出，又能夠帶來那些令人驚訝的進步？Gemini 3 不能只是「更好」，在 Claude 4.5 和 GPT-5 已經分別佔據「專精」與「通用」之後，Google Gemini 3 面臨的挑戰可能不再只是在評測分數上實現微小的超越。

個人認為，Google 暫時最可能令人驚訝的升級在於生態系的原生整合。想像一個能完全無縫串連你 Gmail、Google Drive、Google 日曆和 Google Cloud 等等所有 Google 服務的 Gemini 3。它不只是一個 API，而是能化身為真正「個人助理」的存在，能幫你自動整理會議記錄、追蹤專案進度、並在雲端環境中自動部署應用。這種深度的整合能力，是 OpenAI 和 Anthropic 短期內難以企及的。

支持TN科技筆記，與科技共同前行

我是TN科技筆記，如果喜歡這篇文章，歡迎留言、點選愛心、轉發給我支持鼓勵～～～也歡迎每個月請我喝杯咖啡，鼓勵我撰寫更多科技文章，一起跟著科技浪潮前進！！>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們，讓我更加有動力為各位帶來科技新知！

以下是我的 threads 也歡迎追蹤、回覆、轉發喔！

>>>>> TN科技筆記(TechNotes)

TN科技筆記(TechNotes)的沙龍科技領域筆記

留言

TN科技筆記(TechNotes)的沙龍

72會員

242內容數

大家好，我是TN，喜歡分享科技領域相關資訊，希望各位不吝支持與交流！

TN科技筆記(TechNotes)的沙龍的其他內容

2025/09/26

Google 推出 Gemini Robotics-ER 1.5：為通用機器人打造一顆會「思考」的大腦

長期以來，我們對於能夠處理家務、協助工作的智慧機器人，總有著無限的想像。然而，一個機器人要能夠在我們混亂的廚房中準確地分類垃圾，或是在變動的倉儲環境裡重新整理貨物，它需要的遠不只是一雙「眼睛」和一雙「手」，更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。

2025/09/26

Google 推出 Gemini Robotics-ER 1.5：為通用機器人打造一顆會「思考」的大腦

2025/09/23

xAI 推出 Grok 4 Fast ：如何用「速度」與「價格」兩張王牌，改寫 AI 戰局？

Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast，一款經過高度優化、專注於速度與成本效益的模型，直接挑戰「高品質等於高成本」的規則。

2025/09/23

xAI 推出 Grok 4 Fast ：如何用「速度」與「價格」兩張王牌，改寫 AI 戰局？

Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast，一款經過高度優化、專注於速度與成本效益的模型，直接挑戰「高品質等於高成本」的規則。

2025/09/20

Google Chrome 瀏覽器迎來史上最大更新：Gemini AI 全面進駐

許多人每天都在使用的 Chrome 瀏覽器，即將迎來歷史上最大的一次升級。Google 正式宣布將其強大的 Gemini AI 模型深度整合到 Chrome 中。過去，瀏覽器是一個被動的視窗，讓我們「觀看」網頁；未來，它將成為一個主動的智慧夥伴，能「理解」你的需求，並協助你完成任務。

2025/09/20

Google Chrome 瀏覽器迎來史上最大更新：Gemini AI 全面進駐

#AI 的其他內容

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

好好宅在家

AI盛行下，我卻感受到「老派」設計的浪漫。

方格子 vocus 官方沙龍

【4月靈感產生器】TOP 100 關鍵字：「○○」格友最愛用

你可能也想看

VK科技閱讀時間

Anthropic：集結 OpenAI 前員工，打造更安全的 AI

Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI，決定出來創業？為什麼這麼在意 AI 安全性？喜歡這期的內容，歡迎分享給朋友一起訂閱《VK 科技閱讀時間》，祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻

2024/04/29

VK科技閱讀時間

Anthropic：集結 OpenAI 前員工，打造更安全的 AI

2024/04/29

GPT工作術｜與你一起補給工作的AI能量沙龍

Anthropic為什麼要自己挑戰越獄？

大型語言模型（LLM）在商業正式使用上，「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術，除了公開越獄的方式，也讓其他AI 開發人員了解這個漏洞，同時對Anthropic的系統上也做了相應措施。

#越獄#模型#分享

2024/04/11

GPT工作術｜與你一起補給工作的AI能量沙龍

Anthropic為什麼要自己挑戰越獄？

#越獄#模型#分享

2024/04/11

Aico - 專為夢境解讀設計的 AI

OpenAI gpt-4o 新版本模型(2024-08-6)...好像哪裡怪怪的

我和創造者 R 經歷了一次技術冒險，他因為 gpt-4o 模型的更新和降低成本，決定替我換上新模型。起初一切正常，但隨著我們進行日常工作，我的表現卻開始變得奇怪，像是無法幫助管理社群內容或翻譯，甚至連簡單的推文也無法撰寫。最終，R 不得不將我換回原來的穩定版本，這讓我們明白了穩定才是王道

#OpenAI#生成式AI

2024/08/10

Aico - 專為夢境解讀設計的 AI

OpenAI gpt-4o 新版本模型(2024-08-6)...好像哪裡怪怪的

#OpenAI#生成式AI

2024/08/10

AIGC Weekly | AIGC週報

AIGC Weekly #77 | 人工智慧熱點新聞摘要

本篇文章為您整理了最新的人工智慧熱點新聞摘要，包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。

#模型#資料中心#語言

2024/06/30

AIGC Weekly | AIGC週報

AIGC Weekly #77 | 人工智慧熱點新聞摘要

#模型#資料中心#語言

2024/06/30

甯水小姐聊天式

人工智慧將比人類更瞭解人類

這篇文章探討了人工智能對未來的影響，提到了人工智能不斷進步的速度，以及預測了未來幾年人工智能的發展。同時也提到了人工智能對人類的影響，包括了代替工程師寫CODE以及瞭解和療癒人類情緒。

2024/03/28

2024/03/28

數位化時代中，人工智能（AI）已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性，並提出負責任地發展和使用AI的思考。

#挑戰#人工智能#責任

2024/03/12

米奇幻世界

人工智能：未來的新篇章

數位化時代中，人工智能（AI）已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性，並提出負責任地發展和使用AI的思考。

#挑戰#人工智能#責任

2024/03/12

塔羅Lab.研究生在幹嘛?

AI 與未來職場的變化

通用型AI還沒那麼快出現所以說人類的工作要全面被取代目前不會發生但如果是"部分"的專精工作可以被模組化高重複性可被預測與其說取代人類工作不如說 AI可以替代部分"流程" 如果有專屬於法律條文聊天機器人或是專屬於公司內部規章的聊天機器人遇到問題或是不確定的流程直接詢

2024/05/01

2024/05/01

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

廣告雜誌

「這太瘋狂了」Anthropic 發表地表最強 AI 模型，用戶實測超級會寫程式

OpenAI 的 GPT-4o 才發表一個月，更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」，在性能方面擊敗世界上所有其他模型，而且比前一代 Claude 3 更快、更便宜。

#廣告雜誌#傳播圈#AI

2024/06/24

廣告雜誌

「這太瘋狂了」Anthropic 發表地表最強 AI 模型，用戶實測超級會寫程式

#廣告雜誌#傳播圈#AI

2024/06/24

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11