一、單一任務獨立對話,配合 1 小時快取記憶Claude 的提示快取(Prompt Caching)機制是有時間限制的(TTL,存活時間預設為 5 分鐘,部分進階設定或 Pro 方案可延長至 1 小時)。
- 實戰操作:當您在 1 小時內密集進行同一個專案時,快取能幫您省下高達 90% 的成本 。但如果工作閒置超過快取時間,或者您要切換到完全不同的任務,請務必「開啟全新對話」。不要在舊對話中硬塞新任務,否則龐大的歷史紀錄不僅無法命中快取,還會變成每一輪都要付費重算的雜訊。
二、將步驟批量整合,一行指令處理完畢與大模型對話,最忌諱像跟真人聊天一樣「一句一句交代」。因為每一次發送訊息,系統都會把前面的「所有對話歷史」重新傳輸與計算一次。
- 實戰操作:如果您有三個步驟要做(例如:1. 讀取這個檔案、2. 找出潛在的 Bug、3. 幫我重寫這段邏輯),請直接把它們合併在一行或單一訊息中發送。這樣模型只需要讀取一次上下文就能完成所有工作,大幅減少 Token 的重複消耗與計算成本。
三、主動進行對話壓縮,善用 /compact 並指定保留重點當對話太長時,系統的自動截斷會破壞快取機制。若使用 Claude Code 或特定介面,可以透過手動壓縮來清理版面。
- 實戰操作:當對話過長時,可以使用 /compact 指令(或依賴設定檔中的 AUTO_COMPACT_WINDOW 自動壓縮機制)。最關鍵的是,在執行壓縮前,務必明確提醒 Claude「要保留哪些重點」(例如:「請總結目前的進度,並務必保留資料庫關聯表與剛修改的 API 邏輯」),以此作為新對話的起點,避免模型在壓縮過程中把重要的專案細節給遺忘。
四、直接給精確代碼,嚴禁讓 Claude 盲搜檔案或讀厚重 PDF讓 Claude 去「找檔案」、「讀取一整個資料夾」,或是丟幾百頁的 PDF 讓它自己找重點,是非常致命的 Token 殺手。
- 實戰操作:自己先做好過濾:直接給予確切的檔案路徑(如 src/services/auth.ts),只餵給它「確實需要處理的那幾行程式碼或文字」。分工合作:對於「廣泛找資料」、「快速查閱」或「基礎研究」等任務,建議交給免費的 Gemini 或其他搜尋工具處理 [6]。把昂貴的 Claude 額度保留在它最擅長的「複雜邏輯推理」、「程式碼架構規劃」與「除錯」上。
**五、極致壓縮專屬設定檔(CLAUDE.md),例如「改寫文言文」**在情境工程中,像 CLAUDE.md 這種常駐設定檔會在每次對話被載入 [9]。雖然透過快取機制讀取只需一折費用,但首次載入的寫入成本是標準輸入的 1.25 倍到 2 倍,因此設定檔越精簡越好。
- 實戰操作(進階):除了拿掉不必要的廢話,您可以把中英文的 Rule 整合,甚至挑戰「只留一份中文版,且用文言文或極度精簡的條列式撰寫」。文言文的資訊密度極高,能用極少的 Token 傳達豐富的規範。這樣不僅能省下每次對話的載入成本,還能騰出更多 Context Window(上下文視窗)空間給真正需要處理的程式碼或任務。
--






















