🎯 觀念先決:任務體系判斷
先看「資料有沒有標籤(答案)」,再看「要預測什麼」。
- 監督式學習(有標準答案):
- 預測連續數字(如:房價、業績)→ 迴歸 (Regression)
- 預測離散類別(如:會/不會買、生病/健康) → 分類 (Classification)
- 非監督式學習(沒有標準答案,讓資料自己說話):
- 找相似群體 → 分群 (Clustering)
- 抓出不尋常特徵 → 異常偵測 (Anomaly Detection)
- 簡化特徵、視覺化 → 降維 (Dimensionality Reduction)
- 找商品搭售潛規則 → 關聯規則 (Association Rule)
📊 評估指標重點
迴歸專用指標(數字越小越好,除了 R²)
- MSE / RMSE: 均方誤差 / 均方根誤差(對極端值敏感)。
- MAE: 平均絕對誤差(對極端值抵抗力較好)。
- 決定係數 R²: 解釋力指標,範圍 0~1,越接近 1 越好。
分類專用指標(越高越好)
- Accuracy (準確率): 全部預測中,預測正確的比例;資料不平衡時可能失真。
- Precision (精確率): 被模型判為正例者中,真正為正例的比例(重視誤報少)。
- Recall (召回率): 真實為正例中,被成功找出的比例(寧可多抓,不可漏抓)。
- F1-score: Precision 與 Recall 的調和平均,適合評估類別不平衡時整體表現。
- ROC-AUC:衡量模型區分「正類」與「負類」的排序能力,代表隨機抽一個正樣本,其預測分數高於負樣本的機率。不受預測閾值影響,數值介於 0~1,越接近 1 代表分類能力越強(0.5 等同隨機猜測)。
🛍️ 關聯規則衡量標準
- Support (支持度):A 和 B 同時出現的比例,代表規則的普及程度。
- Confidence (信賴度):買了 A 的前提下,也買了 B 的條件機率。代表這個推薦的「可靠度」。
- Lift (提升度):判斷規則是否有實質價值的關鍵。
• Lift > 1:正相關(有推薦價值,買 A 會帶動買 B)。
• Lift = 1:互相獨立(買 A 跟買 B 沒關係)。
• Lift < 1:負相關(買 A 反而會降低買 B 的機率)。
⚔️ 演算法比較
1. 正規化雙星:防過擬合選誰?
特性 | Lasso 迴歸 (L1) | Ridge 迴歸 (L2) |
核心動作 | 會把不重要的係數壓縮到 0 | 會把係數逼近於 0(但不會是 0) |
特點 | 內建「特徵選擇」功能 | 專治「多重共線性」 |
適用情境 | 變數超級多,想挑出關鍵特徵時 | 解釋力很重要,且特徵間高度相關時 |
2. 迴歸抗擾動比較:傳統線性迴歸 vs. SVR
比較項目 | 傳統線性迴歸 | SVR(支援向量迴歸) |
對待誤差 | 最小化所有點的 MSE | 使用 ε-insensitive loss,只懲罰管外誤差 |
抵抗離群值 | 極弱(線容易被極端值拉偏) | 較強(具備誤差容忍機制) |
非線性處理 | 無法處理 | 強(可搭配「核函數」處理複雜非線性特徵) |
資料量限制 | 運算快,適合超大資料量 | 較慢,不適合超大資料 |
3. 常見樹模型比較(集成學習)
模型 | 核心概念 | 特性與考點 |
決策樹 | 像流程圖一樣的 IF-ELSE 判斷 | 易解釋,但單棵樹超容易過擬合。預測結果是不連續的階梯狀。 |
隨機森林 (RF) | 很多棵決策樹一起投票 (Bagging) | 穩定、抗過擬合。可算出「特徵重要性」,但偏向黑箱。 |
XGBoost | 序列學習,專攻錯誤修正 (Boosting) | 採層級式生長 (Level-wise)。運算極快,Kaggle 競賽利器,能自動處理缺值。 |
LightGBM | XGBoost 的輕量極速版 | 採葉子式生長 (Leaf-wise)。速度更快、超省記憶體,但資料太小容易過擬合。 |
4. 非監督式學習比較
任務類型:分群
● K-means:要先給 K 值,只能找球狀,怕離群值。
● DBSCAN:看密度,不用給 K 值,能過濾噪聲、找不規則形狀。
任務類型:異常偵測
● Isolation Forest:透過隨機切分看誰最快被孤立(路徑最短),不計算距離(極速),適合大數據與高維度。
● One-Class SVM:學習「正常樣本」畫出決策邊界,掉出邊界外即為異常,運算較慢且參數難調。
任務類型:降維
● PCA:線性降維,適合機器學習前置處理。
● t-SNE:非線性,專門用來把高維資料畫成 2D/3D 圖(視覺化)。
任務類型:關聯規則
● Apriori:要不斷掃描資料並產生超多候選集(慢)。
● FP-Growth:FP-Growth 只掃描兩次建構樹,不生候選集(極速)。
🚨 常見陷阱
- 名字混淆:「邏輯迴歸 (Logistic Regression)」不是迴歸!
→ 它是用來做「二元分類」的(輸出 0 到 1 的機率值),不能用來預測連續數字! - 懶惰學習:KNN 演算法其實沒有真正在「訓練」
→ KNN 屬於惰性學習,訓練階段只是把資料存起來,等到要預測時才開始算距離。所以它是「訓練超快,預測超慢」,且遇到高維度資料時,易產生距離計算失效與效能瓶頸。 - 過度理想:「樸素貝式 (Naïve Bayes)」的假設在現實中很難成立
→ 它的前提是所有特徵都「完全獨立」,這在現實世界幾乎不可能。但值得注意的是,即使這項假設與現實存在落差,它在「垃圾郵件分類」跟「文本分析」的任務中,依然能維持穩定的高準確率! - 距離盲點:孤立森林 (Isolation Forest) 不是以距離為核心!
→ 一般異常偵測都在算點跟點的距離,但孤立森林是透過隨機切分,看誰「路徑最短(最快被孤立)」,誰就是異常值,這種特性讓它在高維度資料中表現極佳。
透過預備 iPAS AI 應用規劃師 (中級) 考試,加強 AI 知識。
※ 內容參考 iPAS 官方學習指引,由 AI 整理產製
















