✍️ 文/未來的資料科學家練習生
假設你要出國旅行 ✈️
行李箱空間有限,怎麼裝下最多有用的東西?
這就是我們今天要學的技能:
👉 主成分分析 PCA(Principal Component Analysis)
📌 它可以幫助我們「減少資料維度」,但又「盡可能保留重要資訊」。
📦 一、為什麼要做降維?
我們常常會有一堆資料,每一筆都包含很多欄位(變數)。
但其實:
- 有些欄位很像(例如身高和腿長)
- 有些欄位沒什麼幫助(像是名字)
所以我們想這樣做:
✂️ 刪掉不重要的欄位 → 精簡資料 → 加快分析速度、提升模型效果!
這個動作就叫做「降維」。
🪄 二、PCA 怎麼幫我們做降維?
PCA 的邏輯就像幫資料「整理行李」,分成最精簡的幾個方向:
🔢 它的流程總共有 5 步驟:
✅ Step 1:中心化資料(扣掉平均)
假設每個人都有數學、英文成績,我們先讓成績圍繞在平均數附近。
(這樣比較不會受到原始大小影響)
✅ Step 2:計算「協方差矩陣」
這一步看每個欄位之間的關係強不強。
📌 如果兩個欄位很同步變化(例如身高和體重),就有高「協方差」。
✅ Step 3:做特徵值分解
呼叫我們上篇的好朋友:
協方差矩陣 = 特徵向量 × 特徵值 × 反矩陣
這一步可以找出「資料主要的方向」。
✅ Step 4:選最大特徵值對應的特徵向量
特徵值越大,代表那個方向「越有代表性」。
我們可以只選前 1~2 個特徵向量(也叫「主成分」)來代表整筆資料。
✅ Step 5:資料投影到新空間(完成降維!)
把原本的資料「投影」到新的特徵向量上,
📉 維度變少了,但還是保留最多資訊!

🧪 三、PCA 應用在哪?
- 🖼️ 壓縮圖片資料(像素太多的圖)
- 🧬 基因數據降維
- 🤖 機器學習前的特徵選擇
- 📈 數據視覺化(用 2D 顯示原本的高維資料)
🧠 四、生活比喻再複習一次!
資料分析師就像打包高手:
打包動作 對應數學步驟 衣服集中放一堆 中心化資料 確認哪些東西常一起用 協方差矩陣 決定最常用路線 特徵值分解 裝最重要的東西 保留主成分 行李縮到最小體積 降維完成!
🧠 小試身手:哪一個是正確的投影?
你有一群資料點大致斜斜分布,如下圖(如你前面看到的 PCA 圖示)。
主成分分析會將資料投影到「資料延展最廣的方向」,這個方向就是主成分 PC1。
請看下面三張圖,哪一張是把資料正確投影到主成分方向?
🔢 選項:
A. 所有點都往 x 軸(水平)方向投影
B. 所有點都往主成分 PC1(斜斜的)方向投影 C. 所有點都往 y 軸(垂直)方向投影
✅ 正確答案:
B. 往 PC1 投影才是主成分分析的做法!
🧩 延伸問題(進階挑戰):
若資料點原本是分布在三維空間中,PCA 可以幫你:
A. 把它壓成一張圖片(2D)
B. 找到最有趣的方向觀察資料 C. 幫你刪掉無意義的資訊 D. 以上皆是
👉 答案是:D! 這正是 PCA 的神奇之處~
✨ 結語:降維不代表偷懶,而是更聰明地看資料!
PCA 是機器學習中最經典的降維方法,
它不是亂砍欄位,而是用數學找出最有代表性的方向!
🔍 看懂 PCA,就能理解:
資料世界的真相,不一定藏在表面,而在「變化最大」的地方!
📮 下一篇你想了解哪種降維方法?留言告訴我吧!