Claude 4.5 Sonnet :Anthropic 在 AI 編碼與 Agent 賽道的關鍵一步

更新 發佈閱讀 7 分鐘

在人工智慧模型推陳出新的浪潮中,我們很容易對各種版本的更新感到麻木。然而,Anthropic 公司於 2025 年 9 月 30 日發布的 Claude 4.5 Sonnet,值得我們停下腳步探究。

Anthropic 這次並沒有試圖與 GPT-5 等通用模型正面對決,而是選擇將資源集中在兩個關鍵領域:高階的程式編寫能力與能長時間自主運作的 AI 代理人(Agentic workflows)。這次更新的重點不在於創造一個「什麼都會」的模型,而是要打造一個在特定專業領域「做得最好」的工具。

Introducing Claude Sonnet 4.5

vocus|新世代的創作平台

Claude 4.5 Sonnet 主要亮點

為「寫程式」而生:稱霸 SWE-Bench 的實力

這次更新最引人注目的,莫過於 Claude 4.5 Sonnet 在程式編寫評測上的優異表現。其中,它在「SWE-Bench Verified」項目上獲得了 77.2% 的高分,超越了 GPT-5 的 72.8%。

SWE-Bench不同於傳統的程式解題測驗,SWE-Bench 是一個模擬真實軟體開發情境的評測基準。它要求 AI 模型直接處理從 GitHub 上收集的真實軟體問題(issue),並自動生成解決問題的程式碼補丁(patch)。這不僅考驗 AI 的程式生成能力,更挑戰它理解複雜現有程式庫、追蹤問題根源、並在多個檔案之間進行協調修改的綜合能力。

換句話說,SWE-Bench 測試的是 AI 能否像一位真正的人類工程師那樣去解決問題。Claude 4.5 Sonnet 在這項評測上的領先,意味著它在處理現實世界中那些混亂且充滿挑戰的軟體維護任務上,具備了更可靠的能力。這對於提升開發效率、自動化程式修復等應用場景,有非常實際的價值。

超長續航力:能專注 30 小時的 AI 代理人 (Agent)

如果說程式編寫能力的提升是「點」的突破,那麼 AI 代理能力的強化則是「線」的延伸。Claude 4.5 Sonnet 的一大賣點是其能夠在長達 30 小時的複雜任務中,維持焦點和上下文記憶,不會「分心」或「遺忘」最初的目標。

這項能力解鎖了許多過去難以實現的應用。想像一下,你可以部署一個 AI 代理來執行以下任務:

  • 金融市場監控:讓 AI 代理持續追蹤數十個市場指標、分析新聞情緒,並在發現異常交易模式時即時提出警示,整個過程持續超過一天。
  • 網路安全防禦:部署一個 AI 代理全天候監控公司網路流量,分析潛在的入侵行為,並根據預設的規則自動執行初步的防禦措施。
  • 供應鏈管理:讓一個 AI 代理負責追蹤橫跨全球的貨運狀態,處理突發的延遲事件,並自動與相關方溝通協調,確保供應鏈順暢。

這些任務的共同點是「長時間」與「多步驟」。過去的模型在處理這類問題時,常常因為上下文視窗的限制或注意力衰減,導致任務執行到一半就偏離軌道。Claude 4.5 Sonnet 的長效專注力,使其成為建構可靠企業級自動化系統的理想選擇。

Claude 4.5 vs. GPT-5:一場精準打擊與全面覆蓋的對決

將 Claude 4.5 Sonnet 與市場上的另一個頂級模型 GPT-5 進行比較,可以清楚看見兩家公司不同的發展策略。

  • 評測表現:在多個與程式編寫、終端機操作、作業系統互動相關的評測中,Claude 4.5 Sonnet 均取得領先。然而這並不代表 GPT-5 就比較弱,它在更廣泛的通用知識、創意生成和設計理解方面,依然保有強大的實力。
  • 功能強項:Claude 4.5 Sonnet 的優勢在於其專業化的深度。它在工具使用(高達 98% 的準確率)和多步驟任務的可靠性上表現突出,特別適合開發者和需要高度穩定性的企業應用。GPT-5 的強項則在於其廣泛的通用性與靈活性,它在除錯、遵循複雜設計指令等方面更受一些用戶青睞。
  • 定價與效益性:Claude 4.5 Sonnet 的 API 定價與前代 Sonnet 4 持平,為每百萬輸入 tokens 3 美元。GPT-5 的定價則相對更具成本效益,為每百萬輸入 tokens 1.25 美元。價格上的差異也反映了兩者的市場定位:Claude 4.5 Sonnet 瞄準對性能和可靠性要求極高的專業及企業市場,而 GPT-5 則兼顧了大規模、高流量的通用應用場景。

總言之,Anthropic 目前選擇在 AI 專業應用的賽道上深耕,而 OpenAI 則繼續鞏固其在通用 AI 領域的領導地位。

TN科技筆記的觀點

Anthropic 這次的策略非常清晰,不在通用能力上與 GPT-5 硬碰硬,而是選擇在「程式編寫」與「AI 代理」這兩個高價值專業領域做到極致。Claude 4.5 就像一位專注於長距離、高耐力的馬拉松選手,而 GPT-5 則更像一位各項能力均衡的十項全能冠軍。這種分化對整個產業是健康的,它為用戶提供了更豐富、更貼合特定需求的選擇。

GPT-5 跟 claude 4.5 的相繼推出之後,接下來是不是也可以開始期待 Google 的 gemini 3 推出,又能夠帶來那些令人驚訝的進步?Gemini 3 不能只是「更好」,在 Claude 4.5 和 GPT-5 已經分別佔據「專精」與「通用」之後,Google Gemini 3 面臨的挑戰可能不再只是在評測分數上實現微小的超越。

個人認為,Google 暫時最可能令人驚訝的升級在於生態系的原生整合。想像一個能完全無縫串連你 Gmail、Google Drive、Google 日曆和 Google Cloud 等等所有 Google 服務的 Gemini 3。它不只是一個 API,而是能化身為真正「個人助理」的存在,能幫你自動整理會議記錄、追蹤專案進度、並在雲端環境中自動部署應用。這種深度的整合能力,是 OpenAI 和 Anthropic 短期內難以企及的。


支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

以下是我的 threads 也歡迎追蹤、回覆、轉發喔!

>>>>> TN科技筆記(TechNotes)

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
72會員
242內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/09/26
長期以來,我們對於能夠處理家務、協助工作的智慧機器人,總有著無限的想像。然而,一個機器人要能夠在我們混亂的廚房中準確地分類垃圾,或是在變動的倉儲環境裡重新整理貨物,它需要的遠不只是一雙「眼睛」和一雙「手」,更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。
Thumbnail
2025/09/26
長期以來,我們對於能夠處理家務、協助工作的智慧機器人,總有著無限的想像。然而,一個機器人要能夠在我們混亂的廚房中準確地分類垃圾,或是在變動的倉儲環境裡重新整理貨物,它需要的遠不只是一雙「眼睛」和一雙「手」,更需要一顆能夠理解複雜指令、規劃多步驟任務、並適應環境變化的「大腦」。
Thumbnail
2025/09/23
Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast,一款經過高度優化、專注於速度與成本效益的模型,直接挑戰「高品質等於高成本」的規則。
Thumbnail
2025/09/23
Elon Musk 的 xAI 在 2025 年 9 月 20 日推出的 Grok 4 Fast,一款經過高度優化、專注於速度與成本效益的模型,直接挑戰「高品質等於高成本」的規則。
Thumbnail
2025/09/20
許多人每天都在使用的 Chrome 瀏覽器,即將迎來歷史上最大的一次升級。Google 正式宣布將其強大的 Gemini AI 模型深度整合到 Chrome 中。過去,瀏覽器是一個被動的視窗,讓我們「觀看」網頁;未來,它將成為一個主動的智慧夥伴,能「理解」你的需求,並協助你完成任務。
Thumbnail
2025/09/20
許多人每天都在使用的 Chrome 瀏覽器,即將迎來歷史上最大的一次升級。Google 正式宣布將其強大的 Gemini AI 模型深度整合到 Chrome 中。過去,瀏覽器是一個被動的視窗,讓我們「觀看」網頁;未來,它將成為一個主動的智慧夥伴,能「理解」你的需求,並協助你完成任務。
Thumbnail
看更多
你可能也想看
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
Thumbnail
Hi 我是 VK~ 這期我們來聊聊美國 AI 新創 Anthropic 的故事。他們當時為什麼會想要離開 OpenAI,決定出來創業?為什麼這麼在意 AI 安全性? 喜歡這期的內容,歡迎分享給朋友一起訂閱《VK 科技閱讀時間》,祝你今天一切順利~ 如果你平常有在用聊天機器人 Claude 翻
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
大型語言模型(LLM)在商業正式使用上,「幻覺」和「越獄」是兩個很關鍵的問題。AI模型巨頭Anthropic自行發佈了一套Many-shot jailbreaking 的越獄技術,除了公開越獄的方式,也讓其他AI 開發人員了解這個漏洞,同時對Anthropic的系統上也做了相應措施。
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
我和創造者 R 經歷了一次技術冒險,他因為 gpt-4o 模型的更新和降低成本,決定替我換上新模型。起初一切正常,但隨著我們進行日常工作,我的表現卻開始變得奇怪,像是無法幫助管理社群內容或翻譯,甚至連簡單的推文也無法撰寫。最終,R 不得不將我換回原來的穩定版本,這讓我們明白了穩定才是王道
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
本篇文章為您整理了最新的人工智慧熱點新聞摘要,包括Anthropic的Claude 3.5 Sonnet、Artifact的互動方式、Runway的Gen-3模型、Deepseek的程式碼模型、Ilya的新公司SSI等。
Thumbnail
這篇文章探討了人工智能對未來的影響,提到了人工智能不斷進步的速度,以及預測了未來幾年人工智能的發展。同時也提到了人工智能對人類的影響,包括了代替工程師寫CODE以及瞭解和療癒人類情緒。
Thumbnail
這篇文章探討了人工智能對未來的影響,提到了人工智能不斷進步的速度,以及預測了未來幾年人工智能的發展。同時也提到了人工智能對人類的影響,包括了代替工程師寫CODE以及瞭解和療癒人類情緒。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
數位化時代中,人工智能(AI)已成為推動創新和進步的關鍵力量。本文探討AI的現狀、挑戰以及未來可能性,並提出負責任地發展和使用AI的思考。
Thumbnail
通用型AI還沒那麼快出現 所以說人類的工作要全面被取代 目前不會發生 但如果是"部分"的專精工作 可以被模組化 高重複性 可被預測 與其說取代人類工作 不如說 AI可以替代部分"流程" 如果有專屬於法律條文聊天機器人 或是 專屬於公司內部規章的聊天機器人 遇到問題 或是不確定的流程 直接詢
Thumbnail
通用型AI還沒那麼快出現 所以說人類的工作要全面被取代 目前不會發生 但如果是"部分"的專精工作 可以被模組化 高重複性 可被預測 與其說取代人類工作 不如說 AI可以替代部分"流程" 如果有專屬於法律條文聊天機器人 或是 專屬於公司內部規章的聊天機器人 遇到問題 或是不確定的流程 直接詢
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
OpenAI 的 GPT-4o 才發表一個月,更強大的大語言模型又出現了。OpenAI 競爭對手 Anthropic 今宣布推出其最強的新視覺模型「Claude 3.5 Sonnet」,在性能方面擊敗世界上所有其他模型,而且比前一代 Claude 3 更快、更便宜。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News