Anthropic|Claude for Word
Claude works inside your Word document
Superhuman: Claude learns Microsoft Word
Anthropic 把 Claude 直接放進 Word 裡
不是單純「幫你文章」而是直接在文件內讀註解、回 comment、保留追蹤修訂
可以把常見流程做成可重複執行的 skills
Claude 不再只是外部聊天工具,而是開始往 Office 工作流裡面嵌入
之前已經有接過 Excel、PowerPoint,現在補上 Word
( 以後要工作都叫 AI 再工具裡面執行,開始入侵辦公室生活 )
METR|Task-Completion Time Horizons
Task-Completion Time Horizons of Frontier AI Models - METR
不是只看 benchmark 分數,而是改問 前沿模型到底能獨立完成多長時間尺度的任務這種評估方式比傳統單題 benchmark 更接近 agent 的真實使用情境
GPT-5.4 的任務能力到 5.7 小時
這代表現在模型的比較方式,正在從「會不會答題」往「能不能持續完成長任務」移動,評估焦點更接近規劃、維持上下文、修正錯誤、把事情做完
重點在於持續性的完成任務,還可以自己修正
有沒有正確還是人類介入 ,而且也不是最主要的了
LangChain|Agent Harness = Memory Ownership
X - hwchase17 - Your harness, your memory
Agent harness 不只是 orchestration layer,而是記憶真正寄宿的地方
短期對話、長期偏好、任務狀態、壓縮摘要,實際上都跟 harness 綁在一起
( harness 現在真的超重要,Claude 正在證明這件事情 )
也就是說如果你用的是閉源、或是託管的 agent、stateful API
供應商自己包好的 orchestration,雖然很方便,但實際上也把自己的 memory schema、state、workflow 一起交出去
用越久,切換成本越高
LangChain 推 Deep Agents、Letta 這類開源方案,重點不是「再做一個 agent framework」,而是把記憶留在自己的資料庫與系統裡,不被模型供應商綁住。
agent 能不能跑是小問題,而是記憶(過去的工作)能不能帶走
MiniMax|M2.7 開源釋出
MiniMaxAI/MiniMax-M2.7 · Hugging Face
MiniMax M2.7 這次主打的不是一般聊天,而是 coding agent model
標示為 229B 參數,並強調可以在 128GB RAM 本地跑
開源模型現在不只是在追聊天能力,而是開始往「能在本地實際執行工程任務」前進
( 以後真的很厲害的話,公司可以自己載下來開源模型,建立好完整一套 harness ,不一定要倚賴 Copilot 這樣的產品 )
不只會寫 code,還包含:
- log analysis
- trace analysis
- database root-cause verification
- Agent Teams
- Skills
- dynamic tool search
- self-evolution
想切入的是更接近 software engineering agent 的場景
而不是單純 code completion
開源陣營開始直接做「工程代理人」定位
隨便紀錄,參考各個電子報,文筆請 ChatGPT 潤飾

















