2026-04-14 AI news Notes

更新 發佈閱讀 5 分鐘

Anthropic|Claude for Word

Claude for Word

Claude works inside your Word document

Superhuman: Claude learns Microsoft Word

Anthropic 把 Claude 直接放進 Word 裡
不是單純「幫你文章」而是直接在文件內讀註解、回 comment、保留追蹤修訂

可以把常見流程做成可重複執行的 skills

Claude 不再只是外部聊天工具,而是開始往 Office 工作流裡面嵌入

之前已經有接過 Excel、PowerPoint,現在補上 Word
( 以後要工作都叫 AI 再工具裡面執行,開始入侵辦公室生活 )


METR|Task-Completion Time Horizons

Task-Completion Time Horizons of Frontier AI Models - METR

不是只看 benchmark 分數,而是改問 前沿模型到底能獨立完成多長時間尺度的任務這種評估方式比傳統單題 benchmark 更接近 agent 的真實使用情境

GPT-5.4 的任務能力到 5.7 小時

這代表現在模型的比較方式,正在從「會不會答題」往「能不能持續完成長任務」移動,評估焦點更接近規劃、維持上下文、修正錯誤、把事情做完

重點在於持續性的完成任務,還可以自己修正
有沒有正確還是人類介入 ,而且也不是最主要的了


LangChain|Agent Harness = Memory Ownership

X - hwchase17 - Your harness, your memory

Deep Agents

Letta

Agent harness 不只是 orchestration layer,而是記憶真正寄宿的地方
短期對話、長期偏好、任務狀態、壓縮摘要,實際上都跟 harness 綁在一起
( harness 現在真的超重要,Claude 正在證明這件事情 )

也就是說如果你用的是閉源、或是託管的 agent、stateful API
供應商自己包好的 orchestration,雖然很方便,但實際上也把自己的 memory schema、state、workflow 一起交出去

用越久,切換成本越高

LangChain 推 Deep Agents、Letta 這類開源方案,重點不是「再做一個 agent framework」,而是把記憶留在自己的資料庫與系統裡,不被模型供應商綁住。

agent 能不能跑是小問題,而是記憶(過去的工作)能不能帶走


MiniMax|M2.7 開源釋出

MiniMaxAI/MiniMax-M2.7 · Hugging Face

MiniMax M2.7 這次主打的不是一般聊天,而是 coding agent model
標示為 229B 參數,並強調可以在 128GB RAM 本地跑

開源模型現在不只是在追聊天能力,而是開始往「能在本地實際執行工程任務」前進

( 以後真的很厲害的話,公司可以自己載下來開源模型,建立好完整一套 harness ,不一定要倚賴 Copilot 這樣的產品 )

不只會寫 code,還包含:

    • log analysis
    • trace analysis
    • database root-cause verification
    • Agent Teams
    • Skills
    • dynamic tool search
    • self-evolution

想切入的是更接近 software engineering agent 的場景
而不是單純 code completion

開源陣營開始直接做「工程代理人」定位


隨便紀錄,參考各個電子報,文筆請 ChatGPT 潤飾

留言
avatar-img
Chrouos 的空間
1會員
14內容數
隨筆紀錄
Chrouos 的空間的其他內容
2026/04/10
Meta: Muse Spark, TorchTPU, Anthropic|Claude Managed Agents
2026/04/10
Meta: Muse Spark, TorchTPU, Anthropic|Claude Managed Agents
2026/04/08
OpenAI Image V2, Meta Avocado & Mango, Netflix VOID, GEO
2026/04/08
OpenAI Image V2, Meta Avocado & Mango, Netflix VOID, GEO
2026/04/07
Chroma Context-1: Training a Self-Editing Search Agent
2026/04/07
Chroma Context-1: Training a Self-Editing Search Agent
看更多
你可能也想看
Thumbnail
1. 當你們忙著用 AI 拚完美,我卻用它來「打發時間」 最近我的社群版面幾乎被 Google 的新玩具給洗版了。 朋友們都在驚嘆:NotebookLM 現在竟然能一鍵生成精美的簡報投影片,不用再熬夜做 PPT;或是那個名字聽起來很好吃的 Nano Banana 模型,終於能畫出繁體中文不再亂碼
Thumbnail
1. 當你們忙著用 AI 拚完美,我卻用它來「打發時間」 最近我的社群版面幾乎被 Google 的新玩具給洗版了。 朋友們都在驚嘆:NotebookLM 現在竟然能一鍵生成精美的簡報投影片,不用再熬夜做 PPT;或是那個名字聽起來很好吃的 Nano Banana 模型,終於能畫出繁體中文不再亂碼
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
ChatGPT推出錄製模式,直接錄製會議、產生逐字稿和摘要,速度遠勝仍在Beta階段的Notion AI會議記錄。此現象凸顯應用層產品仰賴外部模型的風險,一旦原廠直接進場,應用層產品的優勢將迅速被超越。本文分析兩者差異,並探討應用層產品如何在競爭中生存。
Thumbnail
ChatGPT推出錄製模式,直接錄製會議、產生逐字稿和摘要,速度遠勝仍在Beta階段的Notion AI會議記錄。此現象凸顯應用層產品仰賴外部模型的風險,一旦原廠直接進場,應用層產品的優勢將迅速被超越。本文分析兩者差異,並探討應用層產品如何在競爭中生存。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
Notebook LM 最強大的 AI 學習工具 以下內容根據所提 26 條「高效提示工程」技巧,逐條以條列式擴充說明,並給出 2 個實例。每條均用繁體中文撰寫,避免表格,方便直接套用。 無須客套,開門見山 說明:LLM 不會因為「請、謝謝」而表現更好,反而可能讓語句變得冗長。 例 1 ❌「請問
Thumbnail
Notebook LM 最強大的 AI 學習工具 以下內容根據所提 26 條「高效提示工程」技巧,逐條以條列式擴充說明,並給出 2 個實例。每條均用繁體中文撰寫,避免表格,方便直接套用。 無須客套,開門見山 說明:LLM 不會因為「請、謝謝」而表現更好,反而可能讓語句變得冗長。 例 1 ❌「請問
Thumbnail
🧠 Gemini AI 2.5 Flash × Deep Research 全攻略 一鍵整理資料、多輪思考,讓研究與寫作高效進化! 🔍 為什麼選 Gemini 2.5 Flash? Gemini 2.5 Flash 是 Google 推出的高速、大記憶、多資料理解的 AI 模型,特別適合
Thumbnail
🧠 Gemini AI 2.5 Flash × Deep Research 全攻略 一鍵整理資料、多輪思考,讓研究與寫作高效進化! 🔍 為什麼選 Gemini 2.5 Flash? Gemini 2.5 Flash 是 Google 推出的高速、大記憶、多資料理解的 AI 模型,特別適合
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News