付費限定

AI 模型上線前,你的驗收標準夠務實嗎?談談評估指標的設計

更新 發佈閱讀 8 分鐘

大多數金融業的 UAT 流程或上線檢核是為傳統程式設計的。套在 AI 模型上,往往測不到真正重要的東西。

有一次我們的 AI 模型開發完成之後,進入了正式的測試流程。

負責驗收的人拿出了他們的測試案例清單,一共一百筆,逐一跑過,看每一筆模型輸出的結果對不對。跑完之後,他說:「這幾筆答錯了,我們希望這幾題也能得到正確答案,是不是要在再加什麼規則給 AI ?這樣才可以全對。」

我當下的反應是:這個驗收標準本身就有問題

不是模型不好,是我們拿了一套傳統程式的驗收邏輯,去評估一個本質上是機率系統的工具。一百筆筆測試案例、期望全部答對,這個標準即使套在傳統程式上都只是低配版的 QA,更不用說用來評估 AI 了。

這個問題不只出現在我們身上。幾乎每一個在金融業推動 AI 的人都會遇到同樣的情形:UAT 的框架不變,但被評估的對象已經不一樣了。

vocus|新世代的創作平台

傳統驗收邏輯為什麼不適用於 AI?

傳統程式的驗收邏輯建立在一個前提上:系統是確定性的。給定同樣的輸入,系統一定要給出同樣的輸出,而且那個輸出一定要是正確答案。任何偏差都是 bug,bug 就是要修,直到沒有 bug 才能正式上線。

這個邏輯套在 AI 模型上從根本上就不成立。

AI 的輸出本質上是機率性的。同樣的輸入,在不同的執行條件下可能產生略微不同的結果。更重要的是,AI 模型不是「對或錯」的判斷機器,而是「信心分佈」的推論系統,它對每一個輸出都有一個對應的信心分數,告訴你它對這個答案有多確定。

以行動支持創作者!付費即可解鎖
本篇內容共 2989 字、0 則留言,僅發佈於金融 x AI 轉型實務你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
留言
avatar-img
Panyo 疊代筆記
0會員
6內容數
Panyo 疊代筆記的其他內容
2026/04/30
當大家都在問「AI 能不能做到」的時候,很少有人在問「做到這件事,我們能負擔得起嗎?」。 有一次在討論 AI 專案成本的時候,一位業務單位的主管問了我一句很直接的話:「我們現在這個流程,一個人一天可以處理幾百件,AI 上線之後如果每一件都要送去大模型跑,費用到底是多少?」 這個問題看起來是財務問
Thumbnail
2026/04/30
當大家都在問「AI 能不能做到」的時候,很少有人在問「做到這件事,我們能負擔得起嗎?」。 有一次在討論 AI 專案成本的時候,一位業務單位的主管問了我一句很直接的話:「我們現在這個流程,一個人一天可以處理幾百件,AI 上線之後如果每一件都要送去大模型跑,費用到底是多少?」 這個問題看起來是財務問
Thumbnail
2026/04/23
Agentic AI 在金融業的應用引起廣泛關注,然而實際導入卻面臨許多挑戰。本文從導入前、導入中、導入後三個階段,剖析技術期待與現實之間的落差,並提供務實的建議,協助金融業者順利導入 AI Agent。
Thumbnail
2026/04/23
Agentic AI 在金融業的應用引起廣泛關注,然而實際導入卻面臨許多挑戰。本文從導入前、導入中、導入後三個階段,剖析技術期待與現實之間的落差,並提供務實的建議,協助金融業者順利導入 AI Agent。
Thumbnail
2026/04/16
許多團隊在導入 AI 專案時,往往準備了規格書和 Use Case,卻忽略了 AI 專案成功的關鍵 - Golden Dataset。本文將深入探討 Golden Dataset 的本質、重要性、建立原則,以及為何它比規格書更能在 AI 專案中發揮關鍵作用,並提供實務上的建議。
Thumbnail
2026/04/16
許多團隊在導入 AI 專案時,往往準備了規格書和 Use Case,卻忽略了 AI 專案成功的關鍵 - Golden Dataset。本文將深入探討 Golden Dataset 的本質、重要性、建立原則,以及為何它比規格書更能在 AI 專案中發揮關鍵作用,並提供實務上的建議。
Thumbnail
看更多
你可能也想看
Thumbnail
資產運用公司在投資判斷和機會識別中廣泛運用人工智慧(AI)。
Thumbnail
資產運用公司在投資判斷和機會識別中廣泛運用人工智慧(AI)。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
銀行後台8年,我做對的最正確的一件事:重複性工作,通通交給機器。 1️⃣ RPA寫合約:點一下,合約自動生成 2️⃣ Python抓制裁名單:自動抓、自動印 3️⃣ AI讀發票:上傳給AI,公司名稱秒擷取 三個場景,省下我一半加班時間。
Thumbnail
銀行後台8年,我做對的最正確的一件事:重複性工作,通通交給機器。 1️⃣ RPA寫合約:點一下,合約自動生成 2️⃣ Python抓制裁名單:自動抓、自動印 3️⃣ AI讀發票:上傳給AI,公司名稱秒擷取 三個場景,省下我一半加班時間。
Thumbnail
美東時間 2026 年 1 月 15 日,華盛頓特區商務部大樓的一紙協議,宣告臺灣產業全球佈局進入一個嶄新的紀元。行政院副院長鄭麗君與美方代表正式簽署「 投資合作備忘錄( MOU ) 」。這不僅是一場外交勝利,更是一次涉及 5,000 億美元( 約 15 兆新台幣 )規模的戰略博弈。
Thumbnail
美東時間 2026 年 1 月 15 日,華盛頓特區商務部大樓的一紙協議,宣告臺灣產業全球佈局進入一個嶄新的紀元。行政院副院長鄭麗君與美方代表正式簽署「 投資合作備忘錄( MOU ) 」。這不僅是一場外交勝利,更是一次涉及 5,000 億美元( 約 15 兆新台幣 )規模的戰略博弈。
Thumbnail
本文介紹五類人工智慧 (AI) 工具,能協助小型企業實現行銷、客戶服務、財務管理、專案組織及銷售流程的自動化,讓企業主能將更多時間與精力投入在公司成長上。
Thumbnail
本文介紹五類人工智慧 (AI) 工具,能協助小型企業實現行銷、客戶服務、財務管理、專案組織及銷售流程的自動化,讓企業主能將更多時間與精力投入在公司成長上。
Thumbnail
RFA考試是沒有題庫與考古題的,是依照每年的時事與議題而命題,完全不知道該怎麼練習選擇題。就在某天洗澡時,突然想到,是不是可以用AI來進行模擬測試,我有使用ChatGPT(付費) 與 Gemini(無付費),比較後,Gemini 有線上考題模擬功能,更貼近實際作答的考試感。
Thumbnail
RFA考試是沒有題庫與考古題的,是依照每年的時事與議題而命題,完全不知道該怎麼練習選擇題。就在某天洗澡時,突然想到,是不是可以用AI來進行模擬測試,我有使用ChatGPT(付費) 與 Gemini(無付費),比較後,Gemini 有線上考題模擬功能,更貼近實際作答的考試感。
Thumbnail
AI 工具的浪潮從 2023 年開始加速湧現,無論是 ChatGPT、Copilot、Gemini 還是各種自動化分析平台,一波波新應用不斷推陳出新。身為金融業工程師,我每天都能感受到這場變革的速度與壓力。公司也明確表態:「鼓勵使用 AI,但要守住資安紅線。」
Thumbnail
AI 工具的浪潮從 2023 年開始加速湧現,無論是 ChatGPT、Copilot、Gemini 還是各種自動化分析平台,一波波新應用不斷推陳出新。身為金融業工程師,我每天都能感受到這場變革的速度與壓力。公司也明確表態:「鼓勵使用 AI,但要守住資安紅線。」
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
AEON效率+90%、Hana Bank 30分變10秒、HEYDI 9倍加速。5個企業AI Agent實戰案例告訴你:成功關鍵不是工具,是你給AI多少企業Context。台灣企業4步驟也能開始。
Thumbnail
AEON效率+90%、Hana Bank 30分變10秒、HEYDI 9倍加速。5個企業AI Agent實戰案例告訴你:成功關鍵不是工具,是你給AI多少企業Context。台灣企業4步驟也能開始。
Thumbnail
資產運用公司正在廣泛運用人工智慧(AI)在投資判斷和投資機會的見極等各種領域中。 JP摩根計劃擴大使用生成AI工具,可警告過早賣出優秀股票等不適宜投資決策。其他資產管理公司也在利用AI來補充分析師的分析,尋找投資對象等。 這些舉措表明,AI的應用範圍正轉向支持專業人士做出更明智的投資決策。
Thumbnail
資產運用公司正在廣泛運用人工智慧(AI)在投資判斷和投資機會的見極等各種領域中。 JP摩根計劃擴大使用生成AI工具,可警告過早賣出優秀股票等不適宜投資決策。其他資產管理公司也在利用AI來補充分析師的分析,尋找投資對象等。 這些舉措表明,AI的應用範圍正轉向支持專業人士做出更明智的投資決策。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News