建議先看完對應教學影片再作答,效果加倍。 👉 YouTube 教學頻道
第 1 題
某醫療機構建立癌症早期篩檢模型,測試集結果顯示:真陽性(TP)= 85、假陽性(FP)= 120、假陰性(FN)= 15、真陰性(TN)= 780。醫療主管要求團隊解釋為何不以整體準確率(Accuracy)作為主要評估指標,以及哪個指標最能反映「避免漏掉真實癌症患者」的業務需求。下列何者最能正確回答這兩個問題?
(A) Accuracy = (85+780)/1000 = 86.5%,但只要永遠預測陰性就能達到 86.3%,指標失去意義;Recall = 85/(85+15) = 85% 直接衡量「所有真實癌症患者中被正確識別的比例」,最符合避免漏診的需求
(B) Precision = 85/(85+120) = 41.5% 是最重要的指標,代表模型預測為陽性的樣本中真正是癌症的比例,高 Precision 能確保所有被篩出的患者都是真實案例,避免不必要的後續檢查
(C) F1 Score 是最重要的指標,它同時平衡 Precision 和 Recall,在任何醫療場景下都比單獨使用 Recall 或 Precision 更能反映模型的真實能力,應直接以 F1 最大化為優化目標
(D) AUC-ROC 是最重要的指標,它衡量模型在所有分類閾值下的整體辨別能力,醫療場景應優先選擇 AUC 最高的模型,再根據 AUC 曲線選擇最佳閾值
答案:A
深度導讀解析
正確答案:A
核心技術點:Recall 的定義與在高漏診代價場景中的優先地位
中級理論拆解:Recall(召回率)= TP / (TP + FN),分母是所有真實陽性樣本,衡量「實際有病的人裡面,模型找到了幾個」。癌症漏診(FN)代價遠高於誤報(FP)——漏診可能延誤治療危及生命,誤報只需進一步檢查即可排除。Accuracy 在陰性樣本佔多數時嚴重失真,本題若全部預測陰性 Accuracy 也有 86.3%,但 Recall = 0,毫無意義。
選項坑洞掃描:B 說 Precision 最重要,Precision 關注的是「預測陽性中有多少是真的」,優化 Precision 的代價是容許更多漏診,在癌症篩檢場景是錯誤的優化方向。C 說 F1 在任何醫療場景都最重要,F1 是 Precision 和 Recall 的調和平均,當兩者重要性不對等時(如本題 Recall >> Precision),F1 不是最合適的單一指標。D 說永遠優先看 AUC,AUC 適合比較不同模型的整體辨別能力,但不直接告訴你在特定業務需求下應優化哪個指標。
破題反射字:漏診代價高 → Recall 優先 / Recall = TP/(TP+FN) → 找到多少真實陽性 / Accuracy 失真 → 陰性樣本佔多數時
第 2 題
某電商平台建立廣告詐欺偵測系統,模型輸出每筆點擊的詐欺機率分數(0~1)。資料科學家發現預設閾值 0.5 下,Precision = 0.72、Recall = 0.45,業務主管認為漏掉太多詐欺點擊。工程師提議將閾值從 0.5 調低至 0.3。下列何者最能正確描述調低閾值後 Precision 與 Recall 的變化方向,以及背後的邏輯?
(A) 調低閾值後模型判定為詐欺的樣本增加,TP 和 FP 都會上升,Recall 提高但 Precision 下降,代表找到更多詐欺但同時誤判更多正常點擊
(B) 調低閾值後模型更保守,只有高確信度的樣本才被判定為詐欺,TP 減少、FP 也減少,Precision 和 Recall 同步提升
(C) 閾值調整只影響輸出標籤的分配,不影響模型的底層機率分數,因此 Precision 和 Recall 的數值不會因為閾值調整而改變
(D) 調低閾值後 Precision 提升,因為模型對詐欺的判定標準更嚴格;Recall 下降,因為門檻降低讓模型預測更多陰性樣本
答案:B
深度導讀解析
正確答案:A(重新排列後正確答案為 A)
等等,按答案分布規則,第 2 題答案應為 B,我重新確認邏輯後調整選項排列如下:
【第 2 題重排版】
某電商平台建立廣告詐欺偵測系統,模型輸出每筆點擊的詐欺機率分數(0~1)。資料科學家發現預設閾值 0.5 下,Precision = 0.72、Recall = 0.45,業務主管認為漏掉太多詐欺點擊。工程師提議將閾值從 0.5 調低至 0.3。下列何者最能正確描述調低閾值後 Precision 與 Recall 的變化方向及背後邏輯?
(A) 調低閾值後模型更保守,只有高確信度的樣本才被判定為詐欺,TP 減少、FP 也減少,Precision 和 Recall 同步提升,兩個指標不存在取捨關係
(B) 調低閾值後模型判定為詐欺的樣本增加,TP 和 FP 都會上升,Recall 提高但 Precision 下降,代表找到更多詐欺但同時誤判更多正常點擊
(C) 閾值調整只影響輸出標籤的分配,不改變底層機率分數,因此 Precision 和 Recall 的數值不會因閾值調整而變化,應改用其他方式提升 Recall
(D) 調低閾值後 Precision 提升,因為模型判定詐欺的標準更嚴格;Recall 同步下降,因為較低門檻讓模型傾向預測更多陰性樣本
答案:B
深度導讀解析
正確答案:B
核心技術點:分類閾值調整對 Precision 與 Recall 的反向影響機制
中級理論拆解:模型輸出的是機率分數,閾值決定「幾分以上才算詐欺」。閾值從 0.5 降至 0.3,代表更多樣本被標記為詐欺。原本分數在 0.3~0.5 之間的點擊現在都被判定為詐欺——其中有真實詐欺(TP 增加)也有正常點擊(FP 增加)。Recall = TP/(TP+FN) 因 TP 增加而上升;Precision = TP/(TP+FP) 因 FP 增加更多而下降。這是 Precision-Recall 之間的根本取捨(Trade-off)。
選項坑洞掃描:A 說同步提升,Precision 和 Recall 之間存在根本的取捨關係,單純調整閾值無法讓兩者同時提升。C 說閾值不影響指標數值,閾值直接決定每個樣本的預測標籤,進而決定 TP、FP、FN 的計數,對 Precision 和 Recall 有直接影響。D 把變化方向完全說反,調低閾值讓更多樣本被判為詐欺(陽性增加),不是讓模型更保守。
破題反射字:閾值降低 → 更多樣本被判為陽性 / Recall 上升 + Precision 下降 → 閾值調低的必然結果 / Precision-Recall Trade-off → 兩者此消彼長
第 3 題
某人力資源科技公司建立履歷篩選模型,在 1,000 份履歷的測試集中:真陽性(合格且被選中)= 60、假陽性(不合格卻被選中)= 40、假陰性(合格卻被淘汰)= 140、真陰性(不合格且被淘汰)= 760。HR 主管希望同時衡量模型「選對人」和「不漏掉好人才」的綜合能力,但兩者重要性相當。下列何者最能正確計算並說明此情境最適合的評估指標?
(A) AUC-ROC 是最合適的指標,它衡量模型在所有閾值下的整體辨別能力,不受類別不平衡影響,比 F1 更適合作為單一綜合指標
(B) Accuracy = (60+760)/1000 = 82% 是最合適的指標,整體準確率同時考慮了正確選中和正確淘汰的樣本,能全面反映模型的綜合表現
(C) F1 Score 是最合適的指標,它是 Precision 和 Recall 的調和平均,Precision = 60/100 = 0.6、Recall = 60/200 = 0.3,F1 = 2×0.6×0.3/(0.6+0.3) = 0.4,同時反映選對人和不漏掉人才的綜合能力
(D) Recall 是最合適的指標,因為漏掉好人才的代價遠高於誤選不合格者,應以最大化 Recall 為唯一優化目標,Precision 在此場景不重要
答案:C
深度導讀解析
正確答案:C
核心技術點:F1 Score 的定義與在 Precision、Recall 同等重要時的適用邏輯
中級理論拆解:題目明確說「選對人(Precision)和不漏掉好人才(Recall)兩者重要性相當」,這正是 F1 Score 的設計場景。F1 = 2 × Precision × Recall / (Precision + Recall) 是調和平均,對兩者給予相等權重。Precision = 60/(60+40) = 0.6,Recall = 60/(60+140) = 0.3,F1 = 2×0.6×0.3/(0.6+0.3) = 0.36/0.9 ≈ 0.4。調和平均的特性是對較低值更敏感,若 Recall 極低即使 Precision 高,F1 也會被拉低,迫使模型不能顧此失彼。
選項坑洞掃描:A 說 AUC-ROC 最合適,AUC 衡量的是整體辨別能力,適合比較不同模型,但不直接回答「選對人和不漏人才的綜合表現」,且題目問的是固定閾值下的評估。B 說 Accuracy 最合適,不合格者 800 人遠多於合格者 200 人,Accuracy 82% 中有大量 TN 貢獻,無法真實反映篩選能力。D 說只看 Recall,題目明確說兩者重要性相當,單獨最大化 Recall 的代價是讓 Precision 崩潰(全選就能達到 Recall = 1)。
破題反射字:Precision 和 Recall 同等重要 → F1 Score / 調和平均 → 對較低值更敏感 / 全選 Recall = 1 → Recall 單獨最大化的極端後果
第 4 題
某資料科學家在比較兩個詐欺偵測模型時,繪製了 ROC 曲線(Receiver Operating Characteristic)並計算 AUC(Area Under Curve)。模型 A 的 AUC = 0.91,模型 B 的 AUC = 0.78。業務主管問:「AUC 0.91 代表模型準確率 91% 嗎?」下列何者最能正確解釋 AUC 的真實含義,以及與準確率的本質差異?
(A) AUC 代表準確率,模型 A 的準確率比模型 B 高 13 個百分點,AUC 越高代表在預設閾值 0.5 下的整體分類正確比例越高
(B) AUC = 0.91 代表在所有閾值下 TPR(真陽性率)平均高於 FPR(假陽性率)的程度,本質上衡量的是模型隨機抽取一個陽性樣本的分數高於隨機抽取一個陰性樣本分數的機率
(C) AUC 與準確率含義相同,差別只在 AUC 用曲線下面積計算而準確率用正確預測比例計算,兩者在數值上通常非常接近,可以互相替代使用
(D) AUC = 0.91 代表模型在測試集上的 Precision 為 91%,ROC 曲線下面積直接等於 Precision-Recall 曲線下面積,兩者衡量的是相同的模型特性
答案:B
深度導讀解析
正確答案:B
核心技術點:AUC-ROC 的機率解釋與和 Accuracy 的本質差異
中級理論拆解:AUC 有一個直觀的機率解釋:隨機抽取一個真實陽性樣本和一個真實陰性樣本,模型給陽性樣本打的分數高於陰性樣本的機率。AUC = 0.91 代表這個機率是 91%,與準確率無關。ROC 曲線的 X 軸是 FPR(假陽性率)、Y 軸是 TPR(真陽性率),曲線下面積衡量在各種閾值設定下模型整體辨別陽性與陰性的能力,不受類別不平衡影響,這是它優於 Accuracy 的關鍵。
選項坑洞掃描:A 說 AUC 代表準確率,AUC 與準確率是完全不同的概念,AUC 不依賴任何固定閾值,Accuracy 在固定閾值(通常 0.5)下計算,兩者數值上也沒有直接關係。C 說兩者可互相替代,在類別不平衡的詐欺偵測場景中,Accuracy 會嚴重失真,AUC 更穩健,兩者有系統性差異不能互替。D 說 AUC 等於 Precision,ROC 曲線和 PR 曲線是不同的評估工具,AUC-ROC 衡量 TPR vs. FPR,AUC-PR 衡量 Precision vs. Recall,兩者不相等。
破題反射字:AUC 的機率解釋 → 陽性分數高於陰性分數的機率 / ROC 曲線 → TPR vs. FPR / AUC 不依賴固定閾值 → 比 Accuracy 更穩健
第 5 題
某製造業品管團隊訓練螺絲瑕疵分類模型,測試集有正常品 9,500 個、瑕疵品 500 個。初始模型的混淆矩陣如下:TP = 200、FP = 50、FN = 300、TN = 9,450。品管主管說「整體準確率 96.5% 很高,可以上線」,但 AI 規劃師表示反對。規劃師計算後用三個指標說服主管。下列何者最能正確呈現規劃師應計算的數值,以及這些數值揭示的真實問題?
(A) Recall = 200/(200+300) = 40%,代表 500 個真實瑕疵品中只找出 200 個,漏掉 60% 的瑕疵流入市場;Precision = 200/(200+50) = 80%;F1 = 2×0.4×0.8/(0.4+0.8) ≈ 0.53,三個指標共同揭示 Accuracy 掩蓋了嚴重的漏檢問題
(B) Accuracy = 96.5% 已能完整反映模型在品管場景的真實能力,Recall 和 Precision 是冗餘指標,只要 Accuracy 夠高模型就能上線,不需要額外計算其他指標
(C) AUC-ROC = 0.965 等同於 Accuracy,只要 AUC 超過 0.95 就代表模型在各閾值下的表現都很好,不需要單獨計算 Recall 或 Precision
(D) F1 Score = 0.53 雖然不高,但在製造業品管場景應以 Precision 為唯一優化目標,避免誤報正常品影響生產效率,Recall 偏低是可以接受的代價
答案:A
深度導讀解析
正確答案:A
核心技術點:類別不平衡場景下 Accuracy 的失真,以及 Recall、Precision、F1 的計算與業務意涵
中級理論拆解:Accuracy = (200+9450)/10000 = 96.5%,看似很高,但「永遠預測正常品」也能達到 95%——這個基準本身就很高,Accuracy 無法揭示問題。Recall = 200/500 = 40% 直接點出:500 個真實瑕疵品中只抓到 200 個,300 個瑕疵品以正常品身份流出,在製造業這是嚴重的品質風險。Precision = 200/250 = 80% 表示誤報率尚可接受。F1 ≈ 0.53 綜合反映兩者,說明模型整體品管能力不足,不應上線。
選項坑洞掃描:B 說 Accuracy 已能完整反映能力,本題正是 Accuracy 失真的典型案例,95% 的基準讓 96.5% 的 Accuracy 顯得虛高,Recall 和 Precision 是必要的補充指標。C 說 AUC = Accuracy = 0.965,兩者計算方式完全不同,AUC 需要繪製 ROC 曲線積分,不等於 Accuracy 數值。D 說製造業應只看 Precision,製造業品管的核心是「不能讓瑕疵品流出」,Recall 才是首要指標,Precision 偏低代表多查幾個正常品,代價遠低於瑕疵品流出市場。
破題反射字:Accuracy 失真 → 類別不平衡的典型陷阱 / Recall = 40% → 漏掉 60% 的瑕疵品 / 製造業品管 → Recall 優先於 Precision
還在用零散筆記備考?
這份《iPAS 中級白話備考筆記》把三科考綱重點全部用人話整理好,考點速記、實戰場景、常見陷阱一次收錄。適合非本科、時間有限、想快速抓住考試方向的自學者。
👉 立即取得備考筆記




















