2026-04-14 AI news Notes

Chrouos

發佈於AI room

2026/04/28 更新2026/04/14 發佈閱讀 5 分鐘

Anthropic｜Claude for Word

Claude for Word

Claude works inside your Word document

Superhuman: Claude learns Microsoft Word

Anthropic 把 Claude 直接放進 Word 裡
不是單純「幫你文章」而是直接在文件內讀註解、回 comment、保留追蹤修訂

可以把常見流程做成可重複執行的 skills

Claude 不再只是外部聊天工具，而是開始往 Office 工作流裡面嵌入

之前已經有接過 Excel、PowerPoint，現在補上 Word
( 以後要工作都叫 AI 再工具裡面執行，開始入侵辦公室生活 )

METR｜Task-Completion Time Horizons

Task-Completion Time Horizons of Frontier AI Models - METR

不是只看 benchmark 分數，而是改問 前沿模型到底能獨立完成多長時間尺度的任務這種評估方式比傳統單題 benchmark 更接近 agent 的真實使用情境

GPT-5.4 的任務能力到 5.7 小時

這代表現在模型的比較方式，正在從「會不會答題」往「能不能持續完成長任務」移動，評估焦點更接近規劃、維持上下文、修正錯誤、把事情做完

重點在於持續性的完成任務，還可以自己修正
有沒有正確還是人類介入，而且也不是最主要的了

LangChain｜Agent Harness = Memory Ownership

X - hwchase17 - Your harness, your memory

Deep Agents

Letta

Agent harness 不只是 orchestration layer，而是記憶真正寄宿的地方
短期對話、長期偏好、任務狀態、壓縮摘要，實際上都跟 harness 綁在一起
( harness 現在真的超重要，Claude 正在證明這件事情 )

也就是說如果你用的是閉源、或是託管的 agent、stateful API
供應商自己包好的 orchestration，雖然很方便，但實際上也把自己的 memory schema、state、workflow 一起交出去

用越久，切換成本越高

LangChain 推 Deep Agents、Letta 這類開源方案，重點不是「再做一個 agent framework」，而是把記憶留在自己的資料庫與系統裡，不被模型供應商綁住。

agent 能不能跑是小問題，而是記憶(過去的工作)能不能帶走

MiniMax｜M2.7 開源釋出

MiniMaxAI/MiniMax-M2.7 · Hugging Face

MiniMax M2.7 這次主打的不是一般聊天，而是 coding agent model
標示為 229B 參數，並強調可以在 128GB RAM 本地跑

開源模型現在不只是在追聊天能力，而是開始往「能在本地實際執行工程任務」前進

( 以後真的很厲害的話，公司可以自己載下來開源模型，建立好完整一套 harness ，不一定要倚賴 Copilot 這樣的產品 )

不只會寫 code，還包含：

- log analysis
- trace analysis
- database root-cause verification
- Agent Teams
- Skills
- dynamic tool search
- self-evolution

想切入的是更接近 software engineering agent 的場景
而不是單純 code completion

開源陣營開始直接做「工程代理人」定位

隨便紀錄，參考各個電子報，文筆請 ChatGPT 潤飾

含 AI 應用內容

留言

Chrouos 的空間

1會員

14內容數

隨筆紀錄

Chrouos 的空間的其他內容

2026/04/10

2026-04-10 AI news Notes

Meta: Muse Spark, TorchTPU, Anthropic｜Claude Managed Agents

2026/04/10

2026-04-10 AI news Notes

Meta: Muse Spark, TorchTPU, Anthropic｜Claude Managed Agents

2026/04/08

2026-04-08 AI news Notes

OpenAI Image V2, Meta Avocado & Mango, Netflix VOID, GEO

2026/04/08

2026-04-08 AI news Notes

OpenAI Image V2, Meta Avocado & Mango, Netflix VOID, GEO

2026/04/07

Context-1

Chroma Context-1: Training a Self-Editing Search Agent

2026/04/07

Context-1

Chroma Context-1: Training a Self-Editing Search Agent

#AI 的其他內容

《穿著Prada的惡魔2》(The Devil Wears Prada 2) - 致我們這群過時的人

Kelvin價值投資研究室

電力基建是支撐 AI 發展最重要的關鍵

你可能也想看

HOVA台灣視覺希望協會的沙龍

讀懂空氣的 AI 眼：在這個過度修飾的世界，我用 AI 找回「膚淺」的權利

1. 當你們忙著用 AI 拚完美，我卻用它來「打發時間」最近我的社群版面幾乎被 Google 的新玩具給洗版了。朋友們都在驚嘆：NotebookLM 現在竟然能一鍵生成精美的簡報投影片，不用再熬夜做 PPT；或是那個名字聽起來很好吃的 Nano Banana 模型，終於能畫出繁體中文不再亂碼

#Google#Note#空氣

2025/11/27

HOVA台灣視覺希望協會的沙龍

讀懂空氣的 AI 眼：在這個過度修飾的世界，我用 AI 找回「膚淺」的權利

#Google#Note#空氣

2025/11/27

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

當時間變少之後，看戲反而變得更加重要——這是在成為母親之後，我第一次誠實地面對這一件事：我沒有那麼多的晚上，可以任性地留給自己了。看戲不再只是「今天有沒有空」，而是牽動整個週末的結構，誰應該照顧孩子，我該在什麼時間回到家，隔天還有沒有精神帶小孩⋯⋯於是，我不得不學會一件以前並不擅長的事：挑選。

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28