付費限定

模型上線之後才是開始,Feedback Loop 與性能監控的實務設計

更新 發佈閱讀 11 分鐘

「這個 AI 最近好像判斷都怪怪的。」

這句話,幾乎每一個做過 AI 上線的人,都有機會在某個時候聽到這個回饋。


有一個案子,模型上線的時候表現很不錯,整體準確率達到我們設定的門檻,BU 也很滿意,大家開了個慶功宴,把它算做是一個成功案例。

接著,大家就繼續忙下一個專案了。

幾個月後,BU 的主管傳了一封訊息過來:「你們的 AI 最近判斷的怎麼有點不對勁?有幾筆我覺得明顯應該是 A,它判成 B 了。」

我們重新拿出 Golden Dataset 跑了一遍,發現整體準確率從上線時的 90%,悄悄滑落到了 81%。沒有任何人知道它是什麼時候開始退步的,也不知道退步的原因,是資料分佈變了?是業務情境更新了?還是模型供應商悄悄推了版本?

這九個百分點的差距,在我們毫無所知的情況下,可能已經累積了幾個月。


為什麼模型會退步?

傳統程式上線之後,除非有 bug 或需求異動,系統基本上不會自己表現變差或是壞掉。這個直覺很深根,我們習慣把「上線」當成一個終點。

但 AI 模型不是這樣。它是一個活在特定時間切片的學習系統,當它學習的那個時代過去之後,世界繼續往前走,它的判斷卻停在原地。

具體來說,讓模型退步的原因通常有三類:

資料漂移(Data Drift)。 業務的實際輸入分佈,隨著時間偏離了當初建模時的訓練資料。例如,新的銷售通路帶來了新型態的表單填寫習慣,輸入的文字風格和當初標注的樣本有了明顯差異。模型沒有學過這些新的輸入模式,碰到它們就開始犯錯。

業務情境更新。 公司推出了新產品、法規更新了分類標準、某個以前常見的輸入類型消失了、一個以前罕見的類別突然變成了主流等,這些都會讓模型原本學到的判斷邏輯和現實脫節。

模型本身的版本迭代。 雲端模型供應商(OpenAI、Anthropic 等)會定期更新底層模型。有時候新版本整體效能更好,但在你的特定任務上,某些邊緣行為可能改變了。如果你沒有監控機制,這種靜默的版本升級可能在你不知情的狀況下影響了線上表現。

這三類原因有一個共同特點:它們都是漸進式發生的,沒有明確的「出錯時刻」,不像傳統程式的 bug 會噴出 error log。AI 模型的退步,是一個慢慢滑落的過程,等到人工察覺,問題通常已經累積了很久。


沒有監控,你不知道退步什麼時候發生

這是大多數 AI 專案在上線後最大的空白:根本不知道模型是否還在正常運作

在傳統維運框架裡,大家習慣監控的是系統層面的指標,API 回應時間、錯誤率、服務可用率。這些指標如果正常,大家就認為系統沒問題。但對 AI 模型來說,這些完全測不到真正重要的東西。API 的呼叫成功,不代表模型的判斷品質維持在上線時的水準。

要真正監控模型表現,需要的是品質層面的指標,而不只是系統層面的指標。

最基本的做法,是建立定期批次評估機制。定期(例如每週或每兩週)從線上的實際輸入中,抽取一定比例的案例,與 Golden Dataset 的測試集一起跑批次評估,得到一個量化的準確率快照。把這個數字和上線時的基準做比較,就能看出模型是否在退步、退步的幅度多大。

批次評估的頻率應該和業務量與業務變化速度掛鉤。如果業務量大、情境變化快(例如因應新法規或新產品線的調整),建議提高評估頻率。如果業務相對穩定,每月一次也可以是合理的起點。

vocus|新世代的創作平台

Feedback Loop 的設計:讓人工複核的結果有地方去

監控只是第一步,讓整個系統持續改善,需要的是一個完整的 Feedback Loop。

以行動支持創作者!付費即可解鎖
本篇內容共 4030 字、0 則留言,僅發佈於金融 x AI 轉型實務你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
留言
avatar-img
Panyo 疊代筆記
0會員
7內容數
Panyo 疊代筆記的其他內容
2026/05/07
大多數金融業的 UAT 流程是為傳統程式設計的。套在 AI 模型上,往往測不到真正重要的東西。 有一次我們的 AI 模型開發完成之後,進入了正式的測試流程。 負責驗收的人拿出了他們的測試案例清單,一共一百筆,逐一跑過,看每一筆模型輸出的結果對不對。跑完之後,他說:「這幾筆答錯了,這樣不行,我們
Thumbnail
2026/05/07
大多數金融業的 UAT 流程是為傳統程式設計的。套在 AI 模型上,往往測不到真正重要的東西。 有一次我們的 AI 模型開發完成之後,進入了正式的測試流程。 負責驗收的人拿出了他們的測試案例清單,一共一百筆,逐一跑過,看每一筆模型輸出的結果對不對。跑完之後,他說:「這幾筆答錯了,這樣不行,我們
Thumbnail
2026/04/30
當大家都在問「AI 能不能做到」的時候,很少有人在問「做到這件事,我們能負擔得起嗎?」。 有一次在討論 AI 專案成本的時候,一位業務單位的主管問了我一句很直接的話:「我們現在這個流程,一個人一天可以處理幾百件,AI 上線之後如果每一件都要送去大模型跑,費用到底是多少?」 這個問題看起來是財務問
Thumbnail
2026/04/30
當大家都在問「AI 能不能做到」的時候,很少有人在問「做到這件事,我們能負擔得起嗎?」。 有一次在討論 AI 專案成本的時候,一位業務單位的主管問了我一句很直接的話:「我們現在這個流程,一個人一天可以處理幾百件,AI 上線之後如果每一件都要送去大模型跑,費用到底是多少?」 這個問題看起來是財務問
Thumbnail
2026/04/23
Agentic AI 在金融業的應用引起廣泛關注,然而實際導入卻面臨許多挑戰。本文從導入前、導入中、導入後三個階段,剖析技術期待與現實之間的落差,並提供務實的建議,協助金融業者順利導入 AI Agent。
Thumbnail
2026/04/23
Agentic AI 在金融業的應用引起廣泛關注,然而實際導入卻面臨許多挑戰。本文從導入前、導入中、導入後三個階段,剖析技術期待與現實之間的落差,並提供務實的建議,協助金融業者順利導入 AI Agent。
Thumbnail
看更多
你可能也想看
Thumbnail
銀行後台8年,我做對的最正確的一件事:重複性工作,通通交給機器。 1️⃣ RPA寫合約:點一下,合約自動生成 2️⃣ Python抓制裁名單:自動抓、自動印 3️⃣ AI讀發票:上傳給AI,公司名稱秒擷取 三個場景,省下我一半加班時間。
Thumbnail
銀行後台8年,我做對的最正確的一件事:重複性工作,通通交給機器。 1️⃣ RPA寫合約:點一下,合約自動生成 2️⃣ Python抓制裁名單:自動抓、自動印 3️⃣ AI讀發票:上傳給AI,公司名稱秒擷取 三個場景,省下我一半加班時間。
Thumbnail
AI 工具的浪潮從 2023 年開始加速湧現,無論是 ChatGPT、Copilot、Gemini 還是各種自動化分析平台,一波波新應用不斷推陳出新。身為金融業工程師,我每天都能感受到這場變革的速度與壓力。公司也明確表態:「鼓勵使用 AI,但要守住資安紅線。」
Thumbnail
AI 工具的浪潮從 2023 年開始加速湧現,無論是 ChatGPT、Copilot、Gemini 還是各種自動化分析平台,一波波新應用不斷推陳出新。身為金融業工程師,我每天都能感受到這場變革的速度與壓力。公司也明確表態:「鼓勵使用 AI,但要守住資安紅線。」
Thumbnail
Anthropic 推出的新模型 Claude Mythos 因具備自動化識別零日漏洞與串聯攻擊的能力,被美、英、加政府視為金融體系的「頂級系統性風險」。目前,高盛、花旗與摩根士丹利等華爾街大行已展開內部測試, AI 已從提升效率的工具,轉變為金融韌性與網路防禦的核心議題。
Thumbnail
Anthropic 推出的新模型 Claude Mythos 因具備自動化識別零日漏洞與串聯攻擊的能力,被美、英、加政府視為金融體系的「頂級系統性風險」。目前,高盛、花旗與摩根士丹利等華爾街大行已展開內部測試, AI 已從提升效率的工具,轉變為金融韌性與網路防禦的核心議題。
Thumbnail
資產運用公司正在廣泛運用人工智慧(AI)在投資判斷和投資機會的見極等各種領域中。 JP摩根計劃擴大使用生成AI工具,可警告過早賣出優秀股票等不適宜投資決策。其他資產管理公司也在利用AI來補充分析師的分析,尋找投資對象等。 這些舉措表明,AI的應用範圍正轉向支持專業人士做出更明智的投資決策。
Thumbnail
資產運用公司正在廣泛運用人工智慧(AI)在投資判斷和投資機會的見極等各種領域中。 JP摩根計劃擴大使用生成AI工具,可警告過早賣出優秀股票等不適宜投資決策。其他資產管理公司也在利用AI來補充分析師的分析,尋找投資對象等。 這些舉措表明,AI的應用範圍正轉向支持專業人士做出更明智的投資決策。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
本文介紹五類人工智慧 (AI) 工具,能協助小型企業實現行銷、客戶服務、財務管理、專案組織及銷售流程的自動化,讓企業主能將更多時間與精力投入在公司成長上。
Thumbnail
本文介紹五類人工智慧 (AI) 工具,能協助小型企業實現行銷、客戶服務、財務管理、專案組織及銷售流程的自動化,讓企業主能將更多時間與精力投入在公司成長上。
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
美東時間 2026 年 1 月 15 日,華盛頓特區商務部大樓的一紙協議,宣告臺灣產業全球佈局進入一個嶄新的紀元。行政院副院長鄭麗君與美方代表正式簽署「 投資合作備忘錄( MOU ) 」。這不僅是一場外交勝利,更是一次涉及 5,000 億美元( 約 15 兆新台幣 )規模的戰略博弈。
Thumbnail
美東時間 2026 年 1 月 15 日,華盛頓特區商務部大樓的一紙協議,宣告臺灣產業全球佈局進入一個嶄新的紀元。行政院副院長鄭麗君與美方代表正式簽署「 投資合作備忘錄( MOU ) 」。這不僅是一場外交勝利,更是一次涉及 5,000 億美元( 約 15 兆新台幣 )規模的戰略博弈。
Thumbnail
AEON效率+90%、Hana Bank 30分變10秒、HEYDI 9倍加速。5個企業AI Agent實戰案例告訴你:成功關鍵不是工具,是你給AI多少企業Context。台灣企業4步驟也能開始。
Thumbnail
AEON效率+90%、Hana Bank 30分變10秒、HEYDI 9倍加速。5個企業AI Agent實戰案例告訴你:成功關鍵不是工具,是你給AI多少企業Context。台灣企業4步驟也能開始。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
資產運用公司在投資判斷和機會識別中廣泛運用人工智慧(AI)。
Thumbnail
資產運用公司在投資判斷和機會識別中廣泛運用人工智慧(AI)。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News