AI Agent 的本質:從三個原語到閉環學習

更新 發佈閱讀 10 分鐘
vocus|新世代的創作平台

引言

我一直在想一件事:

大家在講 AI Agent 的時候,其實都在講「表現」,但很少人在講「本質」。

像是:

  • 會用 tool
  • 會寫 code
  • 會 multi-step reasoning

這些都沒錯,但仍然停留在表層。

這篇不是在教你怎麼寫 Agent,而是提供一種可以用來設計 Agent 的語言。

當我把 Agent 一路往下拆,會發現它其實可以收斂到一個更簡單、也更穩定的結構。


三個原語

如果把 Agent 拆到最底層,可以用三個東西來描述:

1. Generate(探索可能性)
2. Evaluate(施加 selection pressure)
3. Update(改變 state / belief)

一開始可能會覺得還需要更多分類(例如 Action、Memory),但其實:

Act 與 Compress,本質上都是 Update 的不同形式

  • Act = 對外改變世界的 Update
  • Compress = 對內壓縮與更新 state 的 Update

因此這三個原語,其實已經足夠描述一個完整系統


Agent = control loop

Agent 不是能力集合,而是一種控制結構。

state = init_state()

while True:
candidates = Generate(state)
scores = Evaluate(candidates)
action = select(candidates, scores)

result = Environment.step(action)
feedback = observe(result)

state = Update(state, action, feedback)
  • Generate:探索解空間
  • Evaluate:施加選擇壓力並收斂決策
  • Update:改變 state(包含行動與記憶)

關鍵在於:

Agent 的差別在 control,而不在模型能力


為什麼 Update 需要經過 Compress

如果沒有 Action,系統只是在思考,而沒有對世界產生影響。

但更底層的問題是:Update 是如何發生的。

Update 並不是直接發生,而是需要經過 Compress。

Update 需要透過 Compress 才能成立

也就是:

experience = Environment.step(action)

compressed = Compress(experience)

state = Update(state, compressed)

Compress 的本質

Compress 並不是單一功能,而是一個轉換機制:

它把「經驗」轉成「結構」。

可以拆成三個層級:

1. 資訊壓縮(summary)

  • trajectory summary
  • state abstraction
  • context reduction

作用是降低複雜度,使資訊可被處理


2. 記憶結構化(memory)

  • interaction logs
  • user state
  • feature representation

作用是讓系統能跨時間維持一致性


3. 行為固化(skill formation)

  • finetuning
  • distillation
  • pattern reuse

作用是把經驗轉化為可重用能力


Compress → Update 的關係

這些步驟形成一條鏈:

experience

Compress(抽象 / 結構化)

state / belief

Update(改變未來決策)

如果缺少 Compress:

  • 無法泛化(generalize)
  • 無法學習(learning)
  • 無法形成能力(skill formation)
  • 系統無法擴展(scale)

因此可以更精準地說:

Update 的品質,取決於 Compress 的品質

Agent 的學習能力,本質上取決於其 Compress 能力


行為不是分類,而是組合的結果

常見的 Agent 行為(Search、Planning、Memory)並不是本質,而是原語組合的結果。

例如:

Search = Generate ↔ Evaluate 的反覆迭代
Planning = Generate + Evaluate + Update(跨時間)
Memory = Update 的策略
Alignment = Evaluate 的 Constraint
Simulation = Generate + 穩定的 state(Update)
Adaptation = Update(短期 state 改變)
Learning = Update(長期 belief 改變)

行為並不是被列舉出來的,而是從結構中生成出來的


Generate vs Evaluate

兩者的角色是不同的:

Generate = 決定可能性邊界
Evaluate = 決定收斂方向
  • 沒有 Generate,就沒有可選擇的空間
  • 沒有 Evaluate,系統無法收斂

一個決定上限,一個決定方向


Evaluate 的本質

Evaluate 並不是單純的評分,而是 selection pressure(選擇壓力)。

它決定:

  • 哪些行為被保留
  • 哪些行為被淘汰
  • 系統長期會收斂到哪裡

Evaluate 的結構

Evaluate = Objective × Constraint × Belief

Objective(目標)

  • revenue
  • conversion
  • retention

Constraint(限制)

  • 不違規
  • 不傷害體驗

Belief(世界模型)

  • 預測 conversion
  • 預測 LTV

本質上是對世界的預測


商業版本的 Evaluate

score = 
P(convert) * revenue
+ P(retain) * LTV
- risk
- uncertainty

這本質上是一個決策函數


雙層 Evaluate

pred_score = model(action)
real_score = outcome(action)

Learning 的本質是:

讓 pred_score 接近 real_score

更底層地說:

Learning = 更新 belief → 改變 Evaluate → 改變 policy

Update 的兩個層級

Adaptation(短期)

state.context = update_context(state.context, feedback)
  • 可逆
  • 局部調整

Learning(長期)

state.belief = update_belief(state.belief, feedback)
  • 累積性
  • 改變決策方式

Exploration vs Exploitation

if random() < epsilon:
action = explore(candidates)
else:
action = exploit(candidates)

系統需要在探索與利用之間取得平衡


Evaluate 的失敗模式

1. Belief failure

預測與現實不一致


2. Objective failure

優化方向錯誤


3. Constraint failure

行為失控


結論(升維版本)

如果再往下一層壓縮,Agent 可以被描述為:

Agent = 壓縮 → 選擇 → 再壓縮

也就是:

Compress → Evaluate → Compress

並存在於:

Agent ↔ Environment ↔ Feedback

的閉環中。


更底層的結構

experience = Environment.step(action)

representation = Compress(experience)

action = select(Evaluate(Generate(representation)))

new_representation = Compress(representation, experience)

兩次 Compress 的角色

Compress #1(理解)

experience → representation

讓系統理解當下


Evaluate(選擇)

representation → action

決定行為方向


Compress #2(學習)

experience + representation → new representation

讓未來決策改變


核心觀點

Agent 的核心不是推理,而是壓縮。


沒有 Compress 的結果

  • 無法泛化
  • 無法累積知識
  • 行為不會改善

系統會看起來聰明,但不會變強


最終定義

Agent = 一個透過壓縮經驗,並在選擇壓力下持續重塑行為分佈的系統

一個關鍵問題

壓縮的目標是什麼?

  • 最小資訊量
  • 最大決策效益
  • 最強預測能力

不同答案,會導向不同的 Agent 設計

留言
avatar-img
James Hsieh 謝碩峯
1會員
17內容數
關注AI設計、Agent 與系統落地, 相信好的技術不只是能做,而是能被用、產生價值。 這裡,記錄我對軟體與現實世界的思考。
James Hsieh 謝碩峯的其他內容
2026/04/24
很多人每天都在聊 AI。看新聞、看新模型發布、看別人做出的作品,嘴上說著「這很猛」。 但討論技術,和真正從技術獲利,是兩件事。 但真正把 AI 變成能力、變成收入、變成競爭優勢的人,通常不是懂最多的人。 而是擁有正確心態的人。 我最近發現,探索 AI 的人會快速分成兩種: 一種人在等待答案
2026/04/24
很多人每天都在聊 AI。看新聞、看新模型發布、看別人做出的作品,嘴上說著「這很猛」。 但討論技術,和真正從技術獲利,是兩件事。 但真正把 AI 變成能力、變成收入、變成競爭優勢的人,通常不是懂最多的人。 而是擁有正確心態的人。 我最近發現,探索 AI 的人會快速分成兩種: 一種人在等待答案
2026/04/21
大多數人看 AI,看錯了方向 很多人在問:AI 下一波機會在哪? 我反而覺得,這問題問得太早。 真正該先問的是:你要 AI 解決的是哪一種問題? 因為不同問題類型,代表完全不同的產品策略、商業模式、護城河,甚至團隊能力結構都不同。 我最近把它整理成三類: 開放性問題 封閉性問題 半開
2026/04/21
大多數人看 AI,看錯了方向 很多人在問:AI 下一波機會在哪? 我反而覺得,這問題問得太早。 真正該先問的是:你要 AI 解決的是哪一種問題? 因為不同問題類型,代表完全不同的產品策略、商業模式、護城河,甚至團隊能力結構都不同。 我最近把它整理成三類: 開放性問題 封閉性問題 半開
2026/04/20
很多人最近看到 AI coding、vibe coding、text-to-app 爆發,會跑來問我一句話: 「你們 pxCode,是不是做太早了還是太晚做?」 我通常會笑一下。 因為這問題表面上是在問 timing,實際上問的是另一件更殘酷的事: 如果今天這麼熱,為什麼當年你們沒成? 我
2026/04/20
很多人最近看到 AI coding、vibe coding、text-to-app 爆發,會跑來問我一句話: 「你們 pxCode,是不是做太早了還是太晚做?」 我通常會笑一下。 因為這問題表面上是在問 timing,實際上問的是另一件更殘酷的事: 如果今天這麼熱,為什麼當年你們沒成? 我
看更多
你可能也想看
Thumbnail
自從Open AI關閉了Sora之後,許多用戶便期待著Open AI在其他應用上的優化,除了上週的Codex,今天,OpenAI 正式發布 ChatGPT Images 2.0,超越了Images 1.5的優質表現,頗有與nano banana 2分庭抗禮的態勢。 雖然不是LLM,但此次更新受到不
Thumbnail
自從Open AI關閉了Sora之後,許多用戶便期待著Open AI在其他應用上的優化,除了上週的Codex,今天,OpenAI 正式發布 ChatGPT Images 2.0,超越了Images 1.5的優質表現,頗有與nano banana 2分庭抗禮的態勢。 雖然不是LLM,但此次更新受到不
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
本文深入淺出地介紹AI如何利用上下文視窗(Context Window)技術來理解和回應使用者提問,並闡述背後的系統架構和機制,包含系統如何過濾雜訊,避免記憶體超載,以及寫入和讀取記憶的過程,並以類似RAG架構作比喻。
Thumbnail
本文深入淺出地介紹AI如何利用上下文視窗(Context Window)技術來理解和回應使用者提問,並闡述背後的系統架構和機制,包含系統如何過濾雜訊,避免記憶體超載,以及寫入和讀取記憶的過程,並以類似RAG架構作比喻。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
Lovart 突破傳統 AI 工具門檻,透過 ChatCanvas 智慧畫布實現自然語言創作,整合 GPT Image-1、Veo 3 等先進模型,採用「idea-to-video」核心架構,你僅需對話、上傳圖片或草圖,並調度最適合的模型,即可將創意轉化為專業作品,就算不熟悉提示詞,你也能用得很好。
Thumbnail
Lovart 突破傳統 AI 工具門檻,透過 ChatCanvas 智慧畫布實現自然語言創作,整合 GPT Image-1、Veo 3 等先進模型,採用「idea-to-video」核心架構,你僅需對話、上傳圖片或草圖,並調度最適合的模型,即可將創意轉化為專業作品,就算不熟悉提示詞,你也能用得很好。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
2026 年 3 月 Anthropic 因 npm 打包失誤洩漏 Claude Code 全部原始碼。本文解析事件始末、KAIROS 等隱藏功能,以及開源社群從中學到的 agentic harness 架構精髓。
Thumbnail
2026 年 3 月 Anthropic 因 npm 打包失誤洩漏 Claude Code 全部原始碼。本文解析事件始末、KAIROS 等隱藏功能,以及開源社群從中學到的 agentic harness 架構精髓。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News