📚 iPAS AI 應用規劃師(中級):快速重點整理 - 科目三 - L23202 常見機器學習演算法

cici-avatar-img
發佈於AI
更新 發佈閱讀 7 分鐘

🎯 觀念先決:任務體系判斷

先看「資料有沒有標籤(答案)」,再看「要預測什麼」。

  • 監督式學習(有標準答案):
    • 預測連續數字(如:房價、業績)→ 迴歸 (Regression)
    • 預測離散類別(如:會/不會買、生病/健康) → 分類 (Classification)
  • 非監督式學習(沒有標準答案,讓資料自己說話):
    • 找相似群體 → 分群 (Clustering)
    • 抓出不尋常特徵 → 異常偵測 (Anomaly Detection)
    • 簡化特徵、視覺化 → 降維 (Dimensionality Reduction)
    • 找商品搭售潛規則 → 關聯規則 (Association Rule)

📊 評估指標重點

迴歸專用指標(數字越小越好,除了 R²)

  • MSE / RMSE: 均方誤差 / 均方根誤差(對極端值敏感)。
  • MAE: 平均絕對誤差(對極端值抵抗力較好)。
  • 決定係數 R²: 解釋力指標,範圍 0~1,越接近 1 越好

分類專用指標(越高越好)

  • Accuracy (準確率): 全部預測中,預測正確的比例;資料不平衡時可能失真。
  • Precision (精確率): 被模型判為正例者中,真正為正例的比例(重視誤報少)。
  • Recall (召回率): 真實為正例中,被成功找出的比例(寧可多抓,不可漏抓)。
  • F1-score: Precision 與 Recall 的調和平均,適合評估類別不平衡時整體表現。
  • ROC-AUC:衡量模型區分「正類」與「負類」的排序能力,代表隨機抽一個正樣本,其預測分數高於負樣本的機率。不受預測閾值影響,數值介於 0~1,越接近 1 代表分類能力越強(0.5 等同隨機猜測)。

🛍️ 關聯規則衡量標準

  • Support (支持度):A 和 B 同時出現的比例,代表規則的普及程度。
  • Confidence (信賴度):買了 A 的前提下,也買了 B 的條件機率。代表這個推薦的「可靠度」。
  • Lift (提升度):判斷規則是否有實質價值的關鍵。
    • Lift > 1:正相關(有推薦價值,買 A 會帶動買 B)。
    • Lift = 1:互相獨立(買 A 跟買 B 沒關係)。
    • Lift < 1:負相關(買 A 反而會降低買 B 的機率)。

⚔️ 演算法比較

1. 正規化雙星:防過擬合選誰?

特性

Lasso 迴歸 (L1)

Ridge 迴歸 (L2)

核心動作

會把不重要的係數壓縮到 0

會把係數逼近於 0(但不會是 0)

特點

內建「特徵選擇」功能

專治「多重共線性

適用情境

變數超級多,想挑出關鍵特徵時

解釋力很重要,且特徵間高度相關時

2. 迴歸抗擾動比較:傳統線性迴歸 vs. SVR

比較項目

傳統線性迴歸

SVR(支援向量迴歸)

對待誤差

最小化所有點的 MSE

使用 ε-insensitive loss,只懲罰管外誤差

抵抗離群值

極弱(線容易被極端值拉偏)

較強(具備誤差容忍機制)

非線性處理

無法處理

強(可搭配「核函數」處理複雜非線性特徵)

資料量限制

運算快,適合超大資料量

較慢,不適合超大資料

3. 常見樹模型比較(集成學習)

模型

核心概念

特性與考點

決策樹

像流程圖一樣的 IF-ELSE 判斷

易解釋,但單棵樹超容易過擬合。預測結果是不連續的階梯狀。

隨機森林 (RF)

很多棵決策樹一起投票 (Bagging)

穩定、抗過擬合。可算出「特徵重要性」,但偏向黑箱。

XGBoost

序列學習,專攻錯誤修正 (Boosting)

層級式生長 (Level-wise)。運算極快,Kaggle 競賽利器,能自動處理缺值。

LightGBM

XGBoost 的輕量極速版

葉子式生長 (Leaf-wise)。速度更快、超省記憶體,但資料太小容易過擬合。

4. 非監督式學習比較

任務類型:分群
K-means:要先給 K 值,只能找球狀,怕離群值。
DBSCAN:看密度,不用給 K 值,能過濾噪聲、找不規則形狀。

任務類型:異常偵測
Isolation Forest:透過隨機切分看誰最快被孤立(路徑最短),不計算距離(極速),適合大數據與高維度。
One-Class SVM:學習「正常樣本」畫出決策邊界,掉出邊界外即為異常,運算較慢且參數難調。

任務類型:降維
PCA:線性降維,適合機器學習前置處理。
t-SNE:非線性,專門用來把高維資料畫成 2D/3D 圖(視覺化)。

任務類型:關聯規則
Apriori:要不斷掃描資料並產生超多候選集(慢)。
FP-Growth:FP-Growth 只掃描兩次建構樹,不生候選集(極速)。

🚨 常見陷阱

  1. 名字混淆:「邏輯迴歸 (Logistic Regression)」不是迴歸!
    → 它是用來做「二元分類」的(輸出 0 到 1 的機率值),不能用來預測連續數字!
  2. 懶惰學習:KNN 演算法其實沒有真正在「訓練」
    → KNN 屬於惰性學習,訓練階段只是把資料存起來,等到要預測時才開始算距離。所以它是「訓練超快,預測超慢」,且遇到高維度資料時,易產生距離計算失效與效能瓶頸。
  3. 過度理想:「樸素貝式 (Naïve Bayes)」的假設在現實中很難成立
    → 它的前提是所有特徵都「完全獨立」,這在現實世界幾乎不可能。但值得注意的是,即使這項假設與現實存在落差,它在「垃圾郵件分類」跟「文本分析」的任務中,依然能維持穩定的高準確率!
  4. 距離盲點:孤立森林 (Isolation Forest) 不是以距離為核心!
    → 一般異常偵測都在算點跟點的距離,但孤立森林是透過隨機切分,看誰「路徑最短(最快被孤立)」,誰就是異常值,這種特性讓它在高維度資料中表現極佳。


透過預備 iPAS AI 應用規劃師 (中級) 考試,加強 AI 知識。
※ 內容參考 iPAS 官方學習指引,由 AI 整理產製

留言
avatar-img
喬西的數位跨域日常
0會員
26內容數
AI / 行銷 / 程式 / 設計 / 管理 / 閱讀
2026/05/14
🎯 重點一:機器學習三大門派 監督式學習 (Supervised Learning) 核心特徵: 有標籤(有標準答案)。 兩大任務: 1. 分類 (Classification): 預測離散類別(例如:是貓還是狗?是垃圾信嗎?) 2. 迴歸 (Regression): 預測連續數值(例如
Thumbnail
2026/05/14
🎯 重點一:機器學習三大門派 監督式學習 (Supervised Learning) 核心特徵: 有標籤(有標準答案)。 兩大任務: 1. 分類 (Classification): 預測離散類別(例如:是貓還是狗?是垃圾信嗎?) 2. 迴歸 (Regression): 預測連續數值(例如
Thumbnail
2026/05/13
🎯 重點一:最佳化問題的「三本柱」 要搞懂模型怎麼訓練,先掌握這三個專有名詞。 目標函數 (Objective Function) / 損失函數 (Loss Function): 白話文: 衡量「模型預測值」跟「標準答案」差多少的指標。誤差越小越好! 決策變數 (Decision Varia
Thumbnail
2026/05/13
🎯 重點一:最佳化問題的「三本柱」 要搞懂模型怎麼訓練,先掌握這三個專有名詞。 目標函數 (Objective Function) / 損失函數 (Loss Function): 白話文: 衡量「模型預測值」跟「標準答案」差多少的指標。誤差越小越好! 決策變數 (Decision Varia
Thumbnail
2026/05/12
🚀 線性代數 x 機器學習重點 一、 向量與矩陣:資料的「容器」 在機器學習裡,這不只是數字,而是資料的結構。 向量 (Vector):表示一串有方向的數值,可代表單筆資料特徵、模型參數、文字/圖片嵌入向量、梯度 點積 (Dot Product):衡量方向相似度與計算投影大小。 L2 範
Thumbnail
2026/05/12
🚀 線性代數 x 機器學習重點 一、 向量與矩陣:資料的「容器」 在機器學習裡,這不只是數字,而是資料的結構。 向量 (Vector):表示一串有方向的數值,可代表單筆資料特徵、模型參數、文字/圖片嵌入向量、梯度 點積 (Dot Product):衡量方向相似度與計算投影大小。 L2 範
Thumbnail
看更多
你可能也想看
Thumbnail
我發現是自己要用以毒攻毒的方式 再次去經驗大考 震盪出自己深層深層的不安、脆弱、批判、怨恨 所有類似於魔性的狀態 - 出發前我什麼也沒帶 媽媽說,你至少要帶筆吧 阿心說,你至少要帶筆吧 有的 我帶了17年前基測用的2B鉛筆 我帶了當時戴的手
Thumbnail
我發現是自己要用以毒攻毒的方式 再次去經驗大考 震盪出自己深層深層的不安、脆弱、批判、怨恨 所有類似於魔性的狀態 - 出發前我什麼也沒帶 媽媽說,你至少要帶筆吧 阿心說,你至少要帶筆吧 有的 我帶了17年前基測用的2B鉛筆 我帶了當時戴的手
Thumbnail
考試,是每個人人生中一定都會遇到的檢測,不管是期中考、期末考、國中會考、大學聯考,還是以後要當公務人員的考試,大家一定都想要考個好成績,那要怎麼準備要考試的範圍呢? 有人瘋狂刷題、也有人翻教科書,看完後,再去寫複習卷,每個人都有自己的方式,而我有自己創一個考試歌「加油
Thumbnail
考試,是每個人人生中一定都會遇到的檢測,不管是期中考、期末考、國中會考、大學聯考,還是以後要當公務人員的考試,大家一定都想要考個好成績,那要怎麼準備要考試的範圍呢? 有人瘋狂刷題、也有人翻教科書,看完後,再去寫複習卷,每個人都有自己的方式,而我有自己創一個考試歌「加油
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
耶~我們考完試了,一群學生一同發出同樣的聲響。不過自從升上新的年級之後,就沒那麼快樂、輕鬆了,每天都在趕課,就深怕自己跟不上"每位學生有個職責,就是要複習功課或者寫自修,而老師的職責,是要教好學生" 假如我們寫在多的自修、評量、測驗卷、複習卷,也沒辦法考出自再好的成績,因為出題不會只出這些在平常上課
Thumbnail
耶~我們考完試了,一群學生一同發出同樣的聲響。不過自從升上新的年級之後,就沒那麼快樂、輕鬆了,每天都在趕課,就深怕自己跟不上"每位學生有個職責,就是要複習功課或者寫自修,而老師的職責,是要教好學生" 假如我們寫在多的自修、評量、測驗卷、複習卷,也沒辦法考出自再好的成績,因為出題不會只出這些在平常上課
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
真的不想長大,如果能像花的生長時間一樣慢慢長大那該有多好? 最近要期中考,我媽媽不懂我的心,給了壓力:考試沒考好,就一個月不用手機。
Thumbnail
真的不想長大,如果能像花的生長時間一樣慢慢長大那該有多好? 最近要期中考,我媽媽不懂我的心,給了壓力:考試沒考好,就一個月不用手機。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News