2026-05-10 AI news Notes

Chrouos

發佈於AI room

2026/05/12 更新2026/05/12 發佈閱讀 6 分鐘

ZAYA1-8B

Zyphra 出的一個小但聰明的 reasoning model
active parameters 只用 760M，但總共有 8.4B ⇒ MoE, Mixture-of-Experts

大部分參數是備用的，每次只啟動一小部分來算，省算力但保持能力

Post-training 分五階段，簡單說就是：

SFT — 教會基本對話、寫程式、數學
Reasoning warmup — 專練邏輯推理
RLVE-Gym — 用會動態調難度的題目來強化推理（像打遊戲升級）
Math / code RL — 用 RL 繼續拉數學和程式能力
RLHF / RLAIF — 調整聊天風格、讓人用起來舒服

Markovian RSA 是推論時的技巧，不是模型架構本身
讓模型多想幾輪，context 會越來越長 → 爆顯存

解法：
多條 reasoning traces 平行生成⭢ 只取每條的「尾巴」（結論部分）⭢ 重新拼成新 prompt⭢ 再推理一輪

只保留每輪推理的精華，丟掉過程，再繼續想
讓模型可以「多輪深度推理」但 context 不會爆

小 MoE 模型 + 聰明的推論策略 = 在不燒大算力的情況下，把 reasoning 能力往上拉。

Claude｜Managed Agents

New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration | Claude

Claude Managed Agents
新增 dreaming、outcomes、multiagent orchestration、webhooks從單次任務執行改成存記憶、自我改進、多代理協作、自我驗收等等平台

Memory      → 記住任務與偏好
Dreaming    → 離線整理與自我改善
Outcomes    → 自動驗收與 retry
Multiagent  → 任務拆解與平行處理
Webhooks    → 接入真實產品流程

Google Antigravity IDE

Google tests screen sharing and custom agents in Antigravity

可能要補兩個 Agent 開發能力 (不是公開資訊)

Screen Sharing / Screen Recording
⇒ 給 Agent 看到 IDE 外部的狀態例如 emulator、桌面 App、外部 runtime、live demo 或 UI bug 重現流程

Custom Agents / Plugins
⇒ 團隊可以定義多個不同用途的 agent從「單一通用 coding agent」往 可組態化 agent runtime 靠近

Legal Agent Benchmark, LAB

法律 Agent 基準測試

LAB 是 Harvey 推出的法律 Agent 評測基準，用來測試 AI 是否能完成接近真實律所工作的長任務。

核心動機

現有法律 AI 評測多半偏向 短期推理
例如回答合約問題、分析條款、比較案例

真實法律工作通常是 Long-horizon task：
AI 需要讀大量文件、篩選重要資訊、跨文件分析，最後產出可被律師審查的成果。

LAB 的任務設計

LAB 模擬大型律所的工作流程：

Instructions 指示：模擬合夥律師交代助理律師的任務。
Environment 環境：提供封閉式案件資料庫，包含合約、Email、範本等文件。
Output 產出：AI 必須產出法律備忘錄、分析報告等法律工作成果。
Verification 驗證：用專家評分標準檢查事實、結論、引用與格式。

測試規模

LAB 第一版包含：

1,200+ 個任務
24 個法律實務領域
75,000+ 個專家評分準則

評分特色

LAB 採用 全過才算過 的標準。

也就是說，一份報告即使抓到大多數風險，只要漏掉關鍵問題，就不能算成功。這反映法律工作的高風險特性。

TokenSpeed

TokenSpeed: A Speed-of-Light LLM Inference Engine for Agentic Workloads | LightSeek Foundation

為 Agentic inference 設計的高速 LLM 推論引擎

在維持每個使用者 TPS 下限的情況下
最大化每張 GPU 的 TPM

指標意義TPS/User單一使用者感受到的生成速度TPM/GPU每張 GPU 每分鐘產出的 token 數，代表吞吐與成本效率

含 AI 應用內容

留言

Chrouos 的空間

1會員

14內容數

隨筆紀錄

Chrouos 的空間的其他內容

2026/05/12

2026-05-07 AI news Notes

Gemini in Chrome OpenAI一些更新: Instant

2026/05/12

2026-05-07 AI news Notes

Gemini in Chrome OpenAI一些更新: Instant

2026/05/04

2026-05-04 AI news Notes

Grok4.3 上線

2026/05/04

2026-05-04 AI news Notes

Grok4.3 上線

2026/04/28

2026-04-28 AI news Notes

DeepSeek-V4 Preview, GPT5.5 + Image,

2026/04/28

2026-04-28 AI news Notes

DeepSeek-V4 Preview, GPT5.5 + Image,

#AI 的其他內容

《穿著Prada的惡魔2》(The Devil Wears Prada 2) - 致我們這群過時的人

方格子 vocus 官方沙龍

2026 年 5 月 iPAS 考試倒數一個月🔥vocus 助你一臂之力，購買指定備考數位商品抽訂單全免 🎯

你可能也想看

甘果的沙龍

OpenClaw 練功房：打造個人化 Python AI 工具

本文介紹利用 Python 打造個人化的 OpenClaw AI Agent，透過虛擬環境、Jupyter Notebook 及 OpenClaw 的技能系統，將 Python 程式拓展為 AI Agent 可用的技能；並將其視為個人化的「Python 練功房」，建立差異化且個人化的 AI 工具。

#OpenClaw#程式#Note

2026/04/22

甘果的沙龍

OpenClaw 練功房：打造個人化 Python AI 工具

#OpenClaw#程式#Note

2026/04/22

TN科技筆記(TechNotes)的沙龍

TTS模型：NotebookLM、ElevenLabs、Sesame與Dia四大技術比拼

介紹TTS模型（文字轉語音）的運作原理與應用，比較Google NotebookLM Podcast、ElevenLabs Studio、Sesame CSM-1B與Nari Labs Dia的特色、優勢與限制。從對話逼真度到語音複製，幫助您選擇最適合的TTS解決方案。

#AI#人工智慧#科技公司

2025/04/23

TN科技筆記(TechNotes)的沙龍

TTS模型：NotebookLM、ElevenLabs、Sesame與Dia四大技術比拼

#AI#人工智慧#科技公司

2025/04/23

邱吉爾的沙龍

如何運用 NotebookLM 技巧-邱允文

Notebook LM 最強大的 AI 學習工具以下內容根據所提 26 條「高效提示工程」技巧，逐條以條列式擴充說明，並給出 2 個實例。每條均用繁體中文撰寫，避免表格，方便直接套用。無須客套，開門見山說明：LLM 不會因為「請、謝謝」而表現更好，反而可能讓語句變得冗長。例 1　❌「請問

#智慧手錶#AI指令#語言

2025/10/21

邱吉爾的沙龍

如何運用 NotebookLM 技巧-邱允文

#智慧手錶#AI指令#語言

2025/10/21

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28