當提示詞不再夠用：Context Engineering 如何成為 AI Agent 時代的真正護城河

Josh

發佈於研究視角

2026/04/22 更新2026/04/22 發佈閱讀 24 分鐘

如果你在 2023 年還活在「提示詞工程（Prompt Engineering）」的世界裡，那時候大家相信，只要把話說得更準、更細、更像咒語，大模型就會更聰明。

到了 2025 年，這種想法開始鬆動。不是因為 prompt 突然失效了，而是因為 AI 應用變了。

模型不再只被拿來做一次性的問答、摘要或文案生成。它開始要連接文件系統、讀 Slack、查資料庫、呼叫工具、跨多輪任務維持狀態，甚至在一個長流程裡自己拆解問題、回收資訊、做出下一步決策。

這時候，真正的瓶頸就不再只是「你怎麼寫那一句 prompt」，而是： 模型在這一刻到底看到了什麼，以及沒看到什麼。

Context Engineering，就是在這個壓力下長出來的。

它看起來像是個新詞，但它不是憑空誕生的流行語；更像是一個行業在踩過大量坑之後，終於為同一種痛苦找到的共通名字。這篇文章想做的，不是把它當成一句新口號介紹，而是把它放回時間軸裡，看看它怎麼從 prompt engineering 的邊界處長出來，又怎麼在今天變成 AI Agent 時代最關鍵、也最容易被低估的工程能力。

一、縱向分析：Context Engineering 不是突然出現的，它是被「做出來」的

1. 真正的前史，不在 2025，而在更早以前

如果把「Context Engineering」當成一個寬泛概念，它其實比大模型熱潮早得多。人機互動、情境感知系統、資訊檢索、個人化推薦，甚至早年的對話系統，都在處理同一個老問題：

系統在某個時刻，應該基於哪些上下文理解你、回應你、幫你做事。

只是那個年代，大家不會用今天這套詞彙說話。當時沒有幾百萬 token 的上下文窗口，也沒有「把工具、記憶、檢索與外部狀態一起塞進模型工作記憶」這件事。於是，「context」是一個重要概念，但還不是一門獨立工程學。

真正讓它開始成形的，是大模型把一個舊問題徹底放大了： 模型很強，但它每一次推理只看得到當下那個窗口。

它像一個聰明但短期記憶極端有限的同事。你每次找它，它都很能講；可你一旦任務拉長，它就忘、就亂、就被雜訊帶偏。

這是 Context Engineering 的根部：不是某位名人一拍腦袋創造了一個詞，而是產業先遇到了一個系統性痛點，才反過來為它命名。

2. 2020：RAG 把「上下文」第一次從 prompt 外面搬進來

很多人談 Context Engineering，會直接從 2025 年的名詞爆紅講起。但如果沒有 2020 年的 RAG，這條路大概根本不會長成今天這樣。

2020 年，Lewis 等人在 NeurIPS 發表 Retrieval-Augmented Generation。那篇論文要解決的核心問題很務實：模型參數裡存的知識有限，更新不方便，還容易幻覺；如果能在生成前先從外部知識庫檢索相關內容，再把它帶進來，答案就能更準，也更可追溯。

這件事在當時看起來像知識增強；回頭看，其實它做了一個關鍵的思想轉向： 模型的能力，不只由模型本身決定，也由你如何為它準備輸入上下文決定。

也就是說，從這一刻開始，「讓模型看見什麼」開始成為與「模型有多強」同等重要的問題。這其實就是 Context Engineering 的雛形，只是那時它還被叫做 RAG、檢索、外部記憶，而不是今天這個名字。

3. 2022 到 2023：Prompt Engineering 爆紅，也在同時暴露天花板

ChatGPT 把大模型推進主流之後，prompt engineering 幾乎成了第一代 AI 使用者的共同語言。每個人都在試：角色扮演、few-shot、chain-of-thought、格式約束、分隔符、系統提示。

那是一個很有魅力的時代，因為它讓人產生強烈錯覺：只要你夠會說，模型就會更會做。

這句話在單輪任務上沒有錯。OpenAI 官方提示工程文件也把「清楚指令、提供參考文本、拆子任務、用外部工具、系統化測試」講得很完整。問題是，一旦應用開始從 demo 走向 production，prompt engineering 的局限就暴露得很快。

第一，它很脆弱。語意相近但寫法不同的提示，品質可能差很多。第二，它過度依賴單次輸入。當應用變成長流程、多輪互動、工具往返時，你根本不只是在設計一句 prompt，而是在管理一整個不斷膨脹的上下文狀態。第三，它讓很多團隊誤以為問題出在措辭，於是拼命改 prompt，卻沒發現真正的故障點其實是：模型沒有拿到正確資訊、拿到太多雜訊，或資訊順序與格式不對。

也就是在這個階段，行業開始慢慢意識到：prompt engineering 並沒有錯，只是它描述的範圍太小了。

4. 2023 到 2024：工具調用、長上下文與 Agent 讓問題徹底失控

如果說 RAG 是第一次把外部知識搬進模型上下文，那麼 2023 到 2024 年的工具調用、函式調用、長上下文模型與 Agent 框架，則是把整個上下文問題從「重要」直接推到「失控」。

模型開始不只讀文本，還要讀工具定義、看 API 回傳、記住對話歷史、維持任務狀態、利用 scratchpad、讀寫檔案，甚至在多代理之間轉交任務。

這時候，context 不再只是「幾段文件＋一條 prompt」，而是一個混合體：

系統指令
使用者訊息
對話歷史
長短期記憶
檢索結果
工具列表與輸出
狀態變數與外部檔案引用

很多應用在這裡第一次碰到相同的現象：模型不是笨，而是被餵壞了。

你給它太少，它不會。你給它太多，它分心。你給它錯的順序，它誤判。你把工具回傳原封不動塞回去，它被巨量 JSON 淹死。你讓歷史訊息無限追加，它開始忘早期約束。

也就是在這個階段，Agent 開發者開始說出一句很關鍵的話：很多 agent 的失敗，不是 model failure，而是 context failure。

5. 2024：MCP 的出現，讓上下文從內容問題變成連接問題

2024 年 11 月，Anthropic 公開 Model Context Protocol（MCP）。這看似是一個工具連接標準，實際上它把「context」往前又推了一步。

因為一旦模型需要與檔案、資料庫、企業系統、程式碼庫互動，上下文就不只是「塞進窗口裡的文字」，還包括：模型怎麼安全、標準化、可擴展地接到外部世界。

MCP 想解決的是一個很現實的工程問題：每接一個新資料源就要重做一套整合，成本太高，也難維護。它讓開發者開始以更系統化的方式思考上下文： 不是把所有東西都拷進 prompt，而是讓模型知道去哪裡拿、何時拿、拿多少、以什麼格式拿。

這一點非常關鍵。它意味著 Context Engineering 不只是「編排 token」，也是「設計資訊物流」。

6. 2025 年春夏：這個詞終於被喊出來

到了 2025 年，很多人其實都已經在做 Context Engineering，只是沒有統一名字。然後命名時刻來了。

2025 年 6 月中旬，Shopify 執行長 Tobi Lütke 在社群上表示，他更喜歡「Context Engineering」這個說法，因為它比 prompt engineering 更準確地描述核心技能：提供任務能被 LLM 合理解決所需的全部上下文。

一週後，Andrej Karpathy 進一步放大這件事。他說，在任何工業級 LLM 應用中，真正重要的是把「恰到好處的資訊」放進 context window，這是一門藝術，也是一門科學。

這兩句話之所以影響大，不是因為它們第一次發明了概念，而是因為它們替整個產業把那個模糊但共同的經驗說清楚了。大家突然意識到：對，原來我們一直在處理的就是這個。

同一時間，LangChain 把它定義成一套動態系統；HumanLayer 的「12-Factor Agents」則進一步把它放進工程原則裡。這裡有一個很有意思的現象： 到了 2025 年中，行業已經不再把 prompt engineering 視為錯誤，而是把它重新歸類成 Context Engineering 的一個子集。

7. 2025 年夏天：長上下文神話開始破功

如果沒有 2025 年的另一股力量，Context Engineering 可能還只是個新名詞。那股力量是：大家發現長上下文不是萬靈丹。

2025 年 7 月，Chroma 發表 Context Rot 研究，測試多個主流模型在更長輸入下的表現，指出一件很多開發者體感早就知道的事：上下文窗口變大，不代表模型會穩定地利用它。

輸入越長，模型表現常常越不均勻、越不可靠；而且真正讓性能掉下去的，不只是長度本身，還包括干擾項、語意相似雜訊、上下文結構。

這對行業是一記重錘。因為在那之前，很多人相信「模型上下文越大，管理上下文的重要性就會下降」。Context Rot 幾乎是反著講：窗口越大，你越需要工程化管理，不然只是把更多垃圾更昂貴地塞進去。

這也是為什麼 Context Engineering 在 2025 年下半年迅速從「流行語」變成「基礎能力」。因為長上下文沒有消滅這門技術，反而證明它不可避免。

8. 2025 年秋冬：Anthropic 與 Google 把它正式制度化

2025 年 9 月，Anthropic 發表〈Effective context engineering for AI agents〉，這幾乎可視為 Context Engineering 第一次被一線模型公司正式寫成一套明確方法論。

他們強調的不是一次性構造，而是反覆策展。因為 Agent 每跑一輪，就會產生更多可能相關的資訊；而這些資訊不能無腦累積，必須被壓縮、篩選、引用或隔離。

到了 2025 年 12 月，Google 在 Agent Development Kit 的架構說明中又把這個想法往前推了一步：context 不是一串可變字串，而是某個更大狀態系統的「編譯視圖」。

它把 Context Engineering 從一種「手工拼 prompt 的技巧」提升成一種架構觀。說得直接一點，這代表產業終於承認一件事：在 Agent 時代，context 本身就是基礎設施。

9. 到了今天：它還不是成熟學科，但已經是實務分水嶺

截至 2026 年，Context Engineering 仍然是一個邊界流動、定義尚未完全收斂的領域。但它已經足夠成熟到成為一條分水嶺：

還停留在 prompt 思維的團隊，會不斷微調句子，卻很難把 Agent 做穩。
理解 Context Engineering 的團隊，會把問題拆成資訊選擇、狀態管理、工具暴露、輸出壓縮等一連串可工程化子問題。

這不是語言上的升級，而是心智模型的升級：從「怎麼問模型」走向「怎麼建一個讓模型更容易成功的系統」。

二、橫向分析：今天的 Context Engineering，到底在和誰競爭？

先做場景判斷：它沒有單一直接競品，但有多條強力替代路線。如果把問題改成：今天市場上有哪些主流路線，正在解決「如何讓模型在真實任務裡更穩、更準、更能持續工作」這件事？那競爭者就非常清楚了。

我會把它歸為場景 C：競品充分。只是這些競品不是一個個 App，而是五種彼此競逐的路線：

Prompt Engineering
RAG-first 路線
Long-context brute force 路線
Fine-tuning／模型客製化路線
Framework-native Agent 路線

Context Engineering 與它們的關係，不是單純取代，而是逐步吸收、整合、重新排序。

1. Prompt Engineering：最容易上手，也最容易讓人誤判問題

如果說 Context Engineering 是現在最被看重的能力，那 Prompt Engineering 仍然是所有人最熟悉的起點。它最大的優勢很明顯：便宜、快速、低門檻。

但它的短板也正是它的迷人之處：它讓人太容易把所有問題都理解成「我還沒把 prompt 寫對」。

社群對 prompt engineering 最常見的抱怨其實有三種：

脆弱：換個模型版本、改個順序，效果就跑掉。
不可擴展：當任務從單輪變成長流程時，很難靠一個越寫越長的 system prompt 管住整個系統。
難診斷：因為所有問題最後都被折疊進一句 prompt，出了錯你很難知道故障點在哪裡。

從生態位來看，Prompt Engineering 現在更像是 Context Engineering 的局部手藝。你可以把它想成寫作能力：很重要，但如果整個報導的採訪、編輯系統都壞了，光會寫一句漂亮標題救不了全局。

2. RAG-first：最務實、最可追溯，也最容易陷入「檢索地獄」

RAG 是今天最常被拿來和 Context Engineering 相提並論的一條路。很多團隊第一次意識到「上下文很重要」，其實就是在做 RAG 的時候。

RAG 的優勢幾乎是企業級落地的理想清單：能接內部知識、能做資料更新、能提供一定程度可追溯性。這也是為什麼 2023 到 2024 年間，幾乎所有企業 AI 專案最後都會走到某種程度的 RAG。

但使用者對 RAG 的感受也很兩極。討厭它的人討厭的是「切 chunk、做 embedding、調 top-k... 最後還是不穩」。這正是 RAG 的困境：它把問題從「模型不知道」轉成「我怎麼把對的東西檢回來」。

也就是說，RAG 解決的是 Context Engineering 裡「select context」的一大塊，但不是全部。如果你把所有 context 問題都丟給檢索，那最後很容易掉進另一個坑：模型不是沒資料，而是你讓它在錯的時間、用錯的格式，看到了太多不該看的東西。

3. Long Context Brute Force：最省腦、最像魔法，也最容易被現實打臉

這條路的誘惑非常大：既然模型能吃 200K、1M 甚至更大的上下文，為什麼還要這麼麻煩地做檢索？直接把東西塞進去不就好了？

這種思路在 demo 階段非常有殺傷力。對很多開發者來說，這是最自然也最符合直覺的路線：上下文窗口既然是 RAM，那就多給 RAM。使用者喜歡 brute force 的原因很單純：少設計、少建管線、看起來也少出錯。

但真實口碑裡，這條路最大的槽點也最一致：貴、慢，而且一長就開始不穩。

Chroma 的 Context Rot 幾乎就是對這條路的公開審判。它提醒所有人：大上下文不等於均勻注意力，不等於穩定推理。所以 Long Context Brute Force 最適合的生態位，其實是原型驗證或低頻高價值任務。在你還沒時間做精細 Context Engineering 時的過渡方案。

4. Fine-tuning：把能力寫進模型裡，穩定但不靈活

另一條經常被拿來替代 context 管理的路線，是 fine-tuning。背後邏輯也很好懂：如果某些知識、風格會反覆出現，那我乾脆不要每次都塞進 context，而是直接把它寫進模型參數裡。

對使用者來說，fine-tuning 的最大優點是：穩。不需要每次再教一次，也不容易因 prompt 小改而大幅波動。

但它的問題，恰好與 Context Engineering 的優勢互補：更新慢、成本高、需要資料治理、對外部即時知識無力。你可以把它想成把知識刻進骨頭裡，而 Context Engineering 比較像替模型安排當下工作台。

社群對 fine-tuning 的真實評價通常很務實：**好用，但不能亂用。**因為很多團隊最後發現，自己以為是模型能力問題，實際上只是上下文設計問題。這時候一頭栽進 fine-tuning，不只花錢，也容易把本來應該外顯、可追蹤的資訊，藏進難以維護的參數裡。

5. Framework-native Agent 路線：最接近 Context Engineering 本體

最後一個同類，不是單一方法，而是一整條正在成形的生態（LangGraph、Google ADK、MCP 生態等）。這些路線的共同特徵是，它們不再問「prompt 怎麼寫比較好」，而是問：

什麼資訊應該保存在 session？
什麼要寫入長期 memory？
工具應該如何最小暴露？
如何做 eval 才知道問題出在 context pipeline 而不是模型本身？

這一派的使用者口碑也很典型：**做起來真的比較穩，但工程複雜度明顯更高。**它的好處是可觀測、可維護；壞處則是需要更成熟的工程團隊。這條路線目前佔據的生態位很清楚：它是給「已經知道 AI 值得做，現在要把它做穩」的人。

三、橫縱交匯：Context Engineering 真正改變的，不是技術名詞，而是 AI 開發的主語

如果把前面的時間線和競爭格局疊在一起，你會發現一件很有意思的事： Context Engineering 之所以在 2025 年之後迅速站穩，是因為它改寫了 AI 應用開發的主語。

舊主語是模型： 大家問的是哪個模型更強？哪個 prompt 更好？
新主語是系統： 大家開始問這個任務需要哪些資訊來源？這些資訊何時進場？如何避免上下文中毒、分心與遺忘？

這個轉向很重要，因為它把 AI 開發從一種「跟模型賭運氣」的手藝，慢慢推回到工程 discipline。也正因如此，Context Engineering 最終不太可能成為一個封閉品類。它更可能像 DevOps、資料工程一樣，慢慢被拆成一系列子能力：context assembly, memory architecture, retrieval strategy 等。

對企業與產品團隊來說，這裡面的機會非常大。因為模型能力越接近，真正把體驗拉開差距的，就越可能不是底模，而是上下文管理能力。同一顆模型，放在兩個產品裡，一個像失憶實習生，一個像真正懂你業務的同事，差別通常不在模型本體，而在 context pipeline。

但風險也同樣清楚。Context Engineering 現在很容易被講成萬能答案，彷彿只要把這個詞掛上去，系統就會穩。實際上，它恰恰相反： 它不是一句新 slogan，而是一串更麻煩、更細碎、更需要工程耐心的工作。

它沒有魔法，只有取捨。什麼該放進窗口，什麼該留在窗口外；什麼該摘要，什麼不能摘要。這些都沒有單一教條。

所以，對「Context Engineering 是不是下一個 buzzword」這個問題，我的判斷是： **它確實有 buzzword 的外表，但裡面包的是一個真問題。**而且這個問題，會隨著 Agent 更普及、工具更多、任務更長，而變得只會更重要，不會更不重要。

如果 prompt engineering 教會的是「如何對模型說話」，那 Context Engineering 真正教會的，是：**如何為模型搭一個比較不會失手的工作現場。**在 AI 的下一階段，這很可能才是最實在的護城河。

資料來源

Lewis, Patrick et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks（NeurIPS 2020 / arXiv 2020） https://arxiv.org/abs/2005.11401
OpenAI Developers. Prompt engineering https://developers.openai.com/api/docs/guides/prompt-engineering
Anthropic. Introducing the Model Context Protocol（2024-11-25） https://www.anthropic.com/news/model-context-protocol
LangChain Blog. The rise of "context engineering"（2025-06-23） https://blog.langchain.com/the-rise-of-context-engineering/
HumanLayer GitHub. 12-factor Agents - Principles for building reliable LLM applications https://github.com/humanlayer/12-factor-agents
Chroma Research. Context Rot: How Increasing Input Tokens Impacts LLM Performance（2025-07-14） https://www.trychroma.com/research/context-rot
Anthropic Engineering. Effective context engineering for AI agents（2025-09-29） https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
Google Developers Blog. Architecting efficient context-aware multi-agent framework for production（2025-12-04） https://developers.googleblog.com/architecting-efficient-context-aware-multi-agent-framework-for-production/
GitHub. langchain-ai/context_engineering https://github.com/langchain-ai/context_engineering
arXiv. Context Engineering 2.0: The Context of Context Engineering（2025-10-30） https://arxiv.org/abs/2510.26493

留言

Josh的沙龍

107會員

133內容數

分享知識

Josh的沙龍的其他內容

2026/04/22

當提示不再只是提示：Prompt Engineering 的誕生、爆紅、轉型與下一站

Prompt Engineering 並沒有死去，而是從一句好提示，演化成串接模型、知識、工具、記憶與安全的系統能力。回看它的起源、爆發與轉向，才能真正理解生成式 AI 的競爭核心已經改變。

2026/04/22

當提示不再只是提示：Prompt Engineering 的誕生、爆紅、轉型與下一站

2026/04/22

從遠東紡織到全球循環聚酯要角：遠東新世紀的長線轉身、競爭位置與下一場硬仗

遠東新世紀的故事，不是「老紡織廠升級」這麼簡單，而是一家台灣工業公司沿著紡織、化纖、石化、回收與資產經營一路擴張的長期轉型史。它最大的優勢是垂直整合與全球佈局，最大的考驗則是工安治理、景氣循環與綠色材料競賽。

2026/04/22

從遠東紡織到全球循環聚酯要角：遠東新世紀的長線轉身、競爭位置與下一場硬仗

2026/04/21

從車貸公司到移動金融平台：裕融企業的三十五年擴張、收縮與再定位

裕融從裕隆體系的新車分期公司，長成橫跨車貸、企金、消金、移動與能源的金融平台；如今在監理收緊、中國降溫與東南亞起飛的交會點上，重新定義自己的成長邏輯，也照見台灣租賃業的變形記與未來

2026/04/21

從車貸公司到移動金融平台：裕融企業的三十五年擴張、收縮與再定位

看更多

你可能也想看

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

EgentHub 閱讀筆記

什麼是 RAG (檢索增強生成)？

檢索增強生成 (RAG) 提升大型語言模型 (LLM) 回應品質，結合外部知識庫，增強準確性和相關性。RAG 彌補 LLM 缺陷，例如生成虛假資訊、知識範圍有限、來源可靠性不足和上下文不精準等問題。主要優勢包括節省成本、提供實時資訊、增強信任度和提高開發靈活性。

2025/01/11

2025/01/11

從「對話」走向「流程」：為什麼 Anthropic Skills 是 AI 落地的關鍵

本文深入探討 Anthropic 提出的Skills架構，解析其如何解決大型語言模型在穩定性與程序化知識上的先天限制。透過「封裝」、「漸進式揭露」與「四位一體模型」，Skills將AI從對話介面轉變為具備長期能力的模組，並將企業的Know-how轉化為可重複使用的數位資產，為企業級AI應用奠定基礎。

#人工智慧#數位轉型#AIAgent

2026/03/11

衛斯理 Wesley的沙龍

從「對話」走向「流程」：為什麼 Anthropic Skills 是 AI 落地的關鍵

#人工智慧#數位轉型#AIAgent

2026/03/11

衛斯理 Wesley的沙龍

Andrew Ng 的 Agentic AI 開發方法論：先求有，再求好！

本文整理 Andrew Ng 提出的 Agentic AI 開發方法論，核心為「先做出來，再慢慢優化」，強調拒絕完美主義、觀察錯誤軌跡、數據驅動優化、以及初期品質優先，提供 AI 轉型或啟動 AI 專案的實踐價值。透過快速原型、追蹤錯誤、數據分析和針對性優化，以進化論的方式打造高效AI Agent。

#人工智慧#AI#AIAgent

2026/03/09