AI Agent 的本質：從三個原語到閉環學習

James Hsieh 謝碩峯

2026/05/01 更新2026/05/01 發佈閱讀 10 分鐘

引言

我一直在想一件事：

大家在講 AI Agent 的時候，其實都在講「表現」，但很少人在講「本質」。

像是：

會用 tool
會寫 code
會 multi-step reasoning

這些都沒錯，但仍然停留在表層。

這篇不是在教你怎麼寫 Agent，而是提供一種可以用來設計 Agent 的語言。

當我把 Agent 一路往下拆，會發現它其實可以收斂到一個更簡單、也更穩定的結構。

三個原語

如果把 Agent 拆到最底層，可以用三個東西來描述：

1. Generate（探索可能性）
2. Evaluate（施加 selection pressure）
3. Update（改變 state / belief）

一開始可能會覺得還需要更多分類（例如 Action、Memory），但其實：

Act 與 Compress，本質上都是 Update 的不同形式

Act = 對外改變世界的 Update
Compress = 對內壓縮與更新 state 的 Update

因此這三個原語，其實已經足夠描述一個完整系統

Agent = control loop

Agent 不是能力集合，而是一種控制結構。

state = init_state()

while True:
    candidates = Generate(state)
    scores = Evaluate(candidates)
    action = select(candidates, scores)

    result = Environment.step(action)
    feedback = observe(result)

    state = Update(state, action, feedback)

Generate：探索解空間
Evaluate：施加選擇壓力並收斂決策
Update：改變 state（包含行動與記憶）

關鍵在於：

Agent 的差別在 control，而不在模型能力

為什麼 Update 需要經過 Compress

如果沒有 Action，系統只是在思考，而沒有對世界產生影響。

但更底層的問題是：Update 是如何發生的。

Update 並不是直接發生，而是需要經過 Compress。

Update 需要透過 Compress 才能成立

也就是：

experience = Environment.step(action)

compressed = Compress(experience)

state = Update(state, compressed)

Compress 的本質

Compress 並不是單一功能，而是一個轉換機制：

它把「經驗」轉成「結構」。

可以拆成三個層級：

1. 資訊壓縮（summary）

trajectory summary
state abstraction
context reduction

作用是降低複雜度，使資訊可被處理

2. 記憶結構化（memory）

interaction logs
user state
feature representation

作用是讓系統能跨時間維持一致性

3. 行為固化（skill formation）

finetuning
distillation
pattern reuse

作用是把經驗轉化為可重用能力

Compress → Update 的關係

這些步驟形成一條鏈：

experience
  ↓
Compress（抽象 / 結構化）
  ↓
state / belief
  ↓
Update（改變未來決策）

如果缺少 Compress：

無法泛化（generalize）
無法學習（learning）
無法形成能力（skill formation）
系統無法擴展（scale）

因此可以更精準地說：

Update 的品質，取決於 Compress 的品質

Agent 的學習能力，本質上取決於其 Compress 能力

行為不是分類，而是組合的結果

常見的 Agent 行為（Search、Planning、Memory）並不是本質，而是原語組合的結果。

例如：

Search = Generate ↔ Evaluate 的反覆迭代

Planning = Generate + Evaluate + Update（跨時間）

Memory = Update 的策略

Alignment = Evaluate 的 Constraint

Simulation = Generate + 穩定的 state（Update）

Adaptation = Update（短期 state 改變）

Learning = Update（長期 belief 改變）

行為並不是被列舉出來的，而是從結構中生成出來的

Generate vs Evaluate

兩者的角色是不同的：

Generate = 決定可能性邊界
Evaluate = 決定收斂方向

沒有 Generate，就沒有可選擇的空間
沒有 Evaluate，系統無法收斂

一個決定上限，一個決定方向

Evaluate 的本質

Evaluate 並不是單純的評分，而是 selection pressure（選擇壓力）。

它決定：

哪些行為被保留
哪些行為被淘汰
系統長期會收斂到哪裡

Evaluate 的結構

Evaluate = Objective × Constraint × Belief

Objective（目標）

revenue
conversion
retention

Constraint（限制）

不違規
不傷害體驗

Belief（世界模型）

預測 conversion
預測 LTV

本質上是對世界的預測

商業版本的 Evaluate

score = 
    P(convert) * revenue
  + P(retain) * LTV
  - risk
  - uncertainty

這本質上是一個決策函數

雙層 Evaluate

pred_score = model(action)
real_score = outcome(action)

Learning 的本質是：

讓 pred_score 接近 real_score

更底層地說：

Learning = 更新 belief → 改變 Evaluate → 改變 policy

Update 的兩個層級

Adaptation（短期）

state.context = update_context(state.context, feedback)

可逆
局部調整

Learning（長期）

state.belief = update_belief(state.belief, feedback)

累積性
改變決策方式

Exploration vs Exploitation

if random() < epsilon:
    action = explore(candidates)
else:
    action = exploit(candidates)

系統需要在探索與利用之間取得平衡

Evaluate 的失敗模式

1. Belief failure

預測與現實不一致

2. Objective failure

優化方向錯誤

3. Constraint failure

行為失控

結論（升維版本）

如果再往下一層壓縮，Agent 可以被描述為：

Agent = 壓縮 → 選擇 → 再壓縮

也就是：

Compress → Evaluate → Compress

並存在於：

Agent ↔ Environment ↔ Feedback

的閉環中。

更底層的結構

experience = Environment.step(action)

representation = Compress(experience)

action = select(Evaluate(Generate(representation)))

new_representation = Compress(representation, experience)

兩次 Compress 的角色

Compress #1（理解）

experience → representation

讓系統理解當下

Evaluate（選擇）

representation → action

決定行為方向

Compress #2（學習）

experience + representation → new representation

讓未來決策改變

核心觀點

Agent 的核心不是推理，而是壓縮。

沒有 Compress 的結果

無法泛化
無法累積知識
行為不會改善

系統會看起來聰明，但不會變強

最終定義

Agent = 一個透過壓縮經驗，並在選擇壓力下持續重塑行為分佈的系統

一個關鍵問題

壓縮的目標是什麼？

最小資訊量
最大決策效益
最強預測能力

不同答案，會導向不同的 Agent 設計

留言

James Hsieh 謝碩峯

1會員

17內容數

關注AI設計、Agent 與系統落地，相信好的技術不只是能做，而是能被用、產生價值。這裡，記錄我對軟體與現實世界的思考。

James Hsieh 謝碩峯的其他內容

2026/04/24

為什麼有人靠 AI 起飛，有人還在旁觀嫌棄？

很多人每天都在聊 AI。看新聞、看新模型發布、看別人做出的作品，嘴上說著「這很猛」。但討論技術，和真正從技術獲利，是兩件事。但真正把 AI 變成能力、變成收入、變成競爭優勢的人，通常不是懂最多的人。而是擁有正確心態的人。我最近發現，探索 AI 的人會快速分成兩種：一種人在等待答案

2026/04/24

為什麼有人靠 AI 起飛，有人還在旁觀嫌棄？

2026/04/21

AI 不是一種產品，而是三種問題的解法

大多數人看 AI，看錯了方向很多人在問：AI 下一波機會在哪？我反而覺得，這問題問得太早。真正該先問的是：你要 AI 解決的是哪一種問題？因為不同問題類型，代表完全不同的產品策略、商業模式、護城河，甚至團隊能力結構都不同。我最近把它整理成三類：開放性問題封閉性問題半開

2026/04/21

AI 不是一種產品，而是三種問題的解法

2026/04/20

pxCode 失敗後，我看懂 AI 時代創業的殘酷規則，我們比 AI Coding 早了很多年，卻死了

很多人最近看到 AI coding、vibe coding、text-to-app 爆發，會跑來問我一句話：「你們 pxCode，是不是做太早了還是太晚做？」我通常會笑一下。因為這問題表面上是在問 timing，實際上問的是另一件更殘酷的事：如果今天這麼熱，為什麼當年你們沒成？我

2026/04/20

pxCode 失敗後，我看懂 AI 時代創業的殘酷規則，我們比 AI Coding 早了很多年，卻死了

#AI 的其他內容

《穿著Prada的惡魔2》(The Devil Wears Prada 2) - 致我們這群過時的人

方格子 vocus 官方沙龍

2026 年 5 月 iPAS 考試倒數一個月🔥vocus 助你一臂之力，購買指定備考數位商品抽訂單全免 🎯

你可能也想看

EgentHub 閱讀筆記

ChatGPT Images 2.0 全解析：這顆影像大腦學會「設計」了！

自從Open AI關閉了Sora之後，許多用戶便期待著Open AI在其他應用上的優化，除了上週的Codex，今天，OpenAI 正式發布 ChatGPT Images 2.0，超越了Images 1.5的優質表現，頗有與nano banana 2分庭抗禮的態勢。雖然不是LLM，但此次更新受到不

#AI#ChatGPT#OpenAI

2026/04/22

EgentHub 閱讀筆記

ChatGPT Images 2.0 全解析：這顆影像大腦學會「設計」了！

#AI#ChatGPT#OpenAI

2026/04/22

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

#釀電影#釀評論#藝術評論

2026/02/28

EMO先生的沙龍

【系統設計】AI Agent的記憶模式

本文深入淺出地介紹AI如何利用上下文視窗（Context Window）技術來理解和回應使用者提問，並闡述背後的系統架構和機制，包含系統如何過濾雜訊，避免記憶體超載，以及寫入和讀取記憶的過程，並以類似RAG架構作比喻。

#ContextWindow#RAG#LLM

2025/07/26

EMO先生的沙龍

【系統設計】AI Agent的記憶模式

#ContextWindow#RAG#LLM

2025/07/26

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

5 月，方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間，每週都會有新的任務地圖與陪跑計畫，從最簡單的帳號使用、沙龍建立，到帶著你從一句話、一張照片開始，一步一步找到屬於自己的創作節奏。不需要長篇大論，不需要完美的文筆，只需要帶上你今天的日常，就可以出發。征服創作島，抱回靈感與大獎！

#創作#vocus#方格創作島

2026/04/23

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

#創作#vocus#方格創作島

2026/04/23

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

軟式生活｜AI x Business x Design

搞不懂怎麼用 AI 生成想要的圖片和影片？讓 Lovart AI 作為你的貼身設計師

Lovart 突破傳統 AI 工具門檻，透過 ChatCanvas 智慧畫布實現自然語言創作，整合 GPT Image-1、Veo 3 等先進模型，採用「idea-to-video」核心架構，你僅需對話、上傳圖片或草圖，並調度最適合的模型，即可將創意轉化為專業作品，就算不熟悉提示詞，你也能用得很好。

#AI工作流#AI工具#設計

2025/09/30