大多數金融業的 UAT 流程或上線檢核是為傳統程式設計的。套在 AI 模型上,往往測不到真正重要的東西。
有一次我們的 AI 模型開發完成之後,進入了正式的測試流程。
負責驗收的人拿出了他們的測試案例清單,一共一百筆,逐一跑過,看每一筆模型輸出的結果對不對。跑完之後,他說:「這幾筆答錯了,我們希望這幾題也能得到正確答案,是不是要在再加什麼規則給 AI ?這樣才可以全對。」
我當下的反應是:這個驗收標準本身就有問題
不是模型不好,是我們拿了一套傳統程式的驗收邏輯,去評估一個本質上是機率系統的工具。一百筆筆測試案例、期望全部答對,這個標準即使套在傳統程式上都只是低配版的 QA,更不用說用來評估 AI 了。
這個問題不只出現在我們身上。幾乎每一個在金融業推動 AI 的人都會遇到同樣的情形:UAT 的框架不變,但被評估的對象已經不一樣了。

傳統驗收邏輯為什麼不適用於 AI?
傳統程式的驗收邏輯建立在一個前提上:系統是確定性的。給定同樣的輸入,系統一定要給出同樣的輸出,而且那個輸出一定要是正確答案。任何偏差都是 bug,bug 就是要修,直到沒有 bug 才能正式上線。
這個邏輯套在 AI 模型上從根本上就不成立。
AI 的輸出本質上是機率性的。同樣的輸入,在不同的執行條件下可能產生略微不同的結果。更重要的是,AI 模型不是「對或錯」的判斷機器,而是「信心分佈」的推論系統,它對每一個輸出都有一個對應的信心分數,告訴你它對這個答案有多確定。
























