ZAYA1-8B
Zyphra 出的一個小但聰明的 reasoning model
active parameters 只用 760M,但總共有 8.4B ⇒ MoE, Mixture-of-Experts
大部分參數是備用的,每次只啟動一小部分來算,省算力但保持能力
Post-training 分五階段,簡單說就是:
- SFT — 教會基本對話、寫程式、數學
- Reasoning warmup — 專練邏輯推理
- RLVE-Gym — 用會動態調難度的題目來強化推理(像打遊戲升級)
- Math / code RL — 用 RL 繼續拉數學和程式能力
- RLHF / RLAIF — 調整聊天風格、讓人用起來舒服
Markovian RSA 是推論時的技巧,不是模型架構本身
讓模型多想幾輪,context 會越來越長 → 爆顯存
解法:
多條 reasoning traces 平行生成⭢ 只取每條的「尾巴」(結論部分)⭢ 重新拼成新 prompt⭢ 再推理一輪
只保留每輪推理的精華,丟掉過程,再繼續想
讓模型可以「多輪深度推理」但 context 不會爆
小 MoE 模型 + 聰明的推論策略 = 在不燒大算力的情況下,把 reasoning 能力往上拉。
Claude|Managed Agents
New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration | Claude
Claude Managed Agents
新增 dreaming、outcomes、multiagent orchestration、webhooks從單次任務執行改成存記憶、自我改進、多代理協作、自我驗收等等平台
Memory → 記住任務與偏好
Dreaming → 離線整理與自我改善
Outcomes → 自動驗收與 retry
Multiagent → 任務拆解與平行處理
Webhooks → 接入真實產品流程
Google Antigravity IDE
Google tests screen sharing and custom agents in Antigravity
可能要補兩個 Agent 開發能力 (不是公開資訊)
Screen Sharing / Screen Recording
⇒ 給 Agent 看到 IDE 外部的狀態例如 emulator、桌面 App、外部 runtime、live demo 或 UI bug 重現流程
Custom Agents / Plugins
⇒ 團隊可以定義多個不同用途的 agent從「單一通用 coding agent」往 可組態化 agent runtime 靠近
Legal Agent Benchmark, LAB
法律 Agent 基準測試
LAB 是 Harvey 推出的法律 Agent 評測基準,用來測試 AI 是否能完成接近真實律所工作的長任務。
核心動機
現有法律 AI 評測多半偏向 短期推理
例如回答合約問題、分析條款、比較案例
真實法律工作通常是 Long-horizon task:
AI 需要讀大量文件、篩選重要資訊、跨文件分析,最後產出可被律師審查的成果。
LAB 的任務設計
LAB 模擬大型律所的工作流程:
- Instructions 指示:模擬合夥律師交代助理律師的任務。
- Environment 環境:提供封閉式案件資料庫,包含合約、Email、範本等文件。
- Output 產出:AI 必須產出法律備忘錄、分析報告等法律工作成果。
- Verification 驗證:用專家評分標準檢查事實、結論、引用與格式。
測試規模
LAB 第一版包含:
- 1,200+ 個任務
- 24 個法律實務領域
- 75,000+ 個專家評分準則
評分特色
LAB 採用 全過才算過 的標準。
也就是說,一份報告即使抓到大多數風險,只要漏掉關鍵問題,就不能算成功。這反映法律工作的高風險特性。
TokenSpeed
TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads | LightSeek Foundation
為 Agentic inference 設計的高速 LLM 推論引擎
- 在維持每個使用者 TPS 下限的情況下
- 最大化每張 GPU 的 TPM
指標意義TPS/User單一使用者感受到的生成速度TPM/GPU每張 GPU 每分鐘產出的 token 數,代表吞吐與成本效率























