【資料科學的數學基礎課|第7課】PCA 主成分分析是什麼?資料也能「整理行李箱」!

更新於 發佈於 閱讀時間約 4 分鐘

✍️ 文/未來的資料科學家練習生


假設你要出國旅行 ✈️

行李箱空間有限,怎麼裝下最多有用的東西?

這就是我們今天要學的技能:

👉 主成分分析 PCA(Principal Component Analysis)

📌 它可以幫助我們「減少資料維度」,但又「盡可能保留重要資訊」。


📦 一、為什麼要做降維?

我們常常會有一堆資料,每一筆都包含很多欄位(變數)。

但其實:

  • 有些欄位很像(例如身高和腿長)
  • 有些欄位沒什麼幫助(像是名字)

所以我們想這樣做:

✂️ 刪掉不重要的欄位 → 精簡資料 → 加快分析速度、提升模型效果!

這個動作就叫做「降維」。


🪄 二、PCA 怎麼幫我們做降維?

PCA 的邏輯就像幫資料「整理行李」,分成最精簡的幾個方向:

🔢 它的流程總共有 5 步驟


✅ Step 1:中心化資料(扣掉平均)

假設每個人都有數學、英文成績,我們先讓成績圍繞在平均數附近。

(這樣比較不會受到原始大小影響)


✅ Step 2:計算「協方差矩陣」

這一步看每個欄位之間的關係強不強。

📌 如果兩個欄位很同步變化(例如身高和體重),就有高「協方差」。


✅ Step 3:做特徵值分解

呼叫我們上篇的好朋友:

協方差矩陣 = 特徵向量 × 特徵值 × 反矩陣

這一步可以找出「資料主要的方向」。


✅ Step 4:選最大特徵值對應的特徵向量

特徵值越大,代表那個方向「越有代表性」。

我們可以只選前 1~2 個特徵向量(也叫「主成分」)來代表整筆資料。


✅ Step 5:資料投影到新空間(完成降維!)

把原本的資料「投影」到新的特徵向量上,

📉 維度變少了,但還是保留最多資訊!


raw-image



🧪 三、PCA 應用在哪?

  • 🖼️ 壓縮圖片資料(像素太多的圖)
  • 🧬 基因數據降維
  • 🤖 機器學習前的特徵選擇
  • 📈 數據視覺化(用 2D 顯示原本的高維資料)

🧠 四、生活比喻再複習一次!

資料分析師就像打包高手:

打包動作 對應數學步驟 衣服集中放一堆 中心化資料 確認哪些東西常一起用 協方差矩陣 決定最常用路線 特徵值分解 裝最重要的東西 保留主成分 行李縮到最小體積 降維完成!

🧠 小試身手:哪一個是正確的投影?

你有一群資料點大致斜斜分布,如下圖(如你前面看到的 PCA 圖示)。

主成分分析會將資料投影到「資料延展最廣的方向」,這個方向就是主成分 PC1。

請看下面三張圖,哪一張是把資料正確投影到主成分方向


🔢 選項:

A. 所有點都往 x 軸(水平)方向投影

B. 所有點都往主成分 PC1(斜斜的)方向投影 C. 所有點都往 y 軸(垂直)方向投影


✅ 正確答案:

B. 往 PC1 投影才是主成分分析的做法!


🧩 延伸問題(進階挑戰):

若資料點原本是分布在三維空間中,PCA 可以幫你:

A. 把它壓成一張圖片(2D)

B. 找到最有趣的方向觀察資料 C. 幫你刪掉無意義的資訊 D. 以上皆是

👉 答案是:D! 這正是 PCA 的神奇之處~


✨ 結語:降維不代表偷懶,而是更聰明地看資料!

PCA 是機器學習中最經典的降維方法,

它不是亂砍欄位,而是用數學找出最有代表性的方向

🔍 看懂 PCA,就能理解:

資料世界的真相,不一定藏在表面,而在「變化最大」的地方!


📮 下一篇你想了解哪種降維方法?留言告訴我吧!

留言
avatar-img
留言分享你的想法!
avatar-img
溫蒂的夢幻島航海日誌
1會員
19內容數
我是 Wendy,一位相信知識可以讓世界更美好的學習者。 白天是品保工程師,晚上是資料筆記的整理者。 正在深入統計與品質管理,也持續探索資料科學與商業邏輯的連結。 偶爾也會記錄家庭經營、親子對話與自由工作者的嘗試。 每一篇文章,都是給自己的備忘錄,也希望成為你前行路上的地圖。
2025/08/04
✍️ 文/未來的資料科學家練習生 你有沒有發現一件事? 拍照時,角度對了,臉就小一圈 整理資料時,有些數據方向「特別有代表性」 做模型時,我們常想抓出「真正重要的變化方向」 這些,其實都跟今天要介紹的主角有關── 👉 特徵值(Eigenvalue)與特徵向量(Eigenvector)
Thumbnail
2025/08/04
✍️ 文/未來的資料科學家練習生 你有沒有發現一件事? 拍照時,角度對了,臉就小一圈 整理資料時,有些數據方向「特別有代表性」 做模型時,我們常想抓出「真正重要的變化方向」 這些,其實都跟今天要介紹的主角有關── 👉 特徵值(Eigenvalue)與特徵向量(Eigenvector)
Thumbnail
2025/08/04
這篇文章介紹了線性代數中幾種重要的向量:單位向量、正交向量、正交矩陣和正交單位向量,並解釋了它們在資料科學和機器學習中的應用,例如資料標準化、維度獨立性保證、資料轉換和模型優化。
Thumbnail
2025/08/04
這篇文章介紹了線性代數中幾種重要的向量:單位向量、正交向量、正交矩陣和正交單位向量,並解釋了它們在資料科學和機器學習中的應用,例如資料標準化、維度獨立性保證、資料轉換和模型優化。
Thumbnail
2025/08/04
這篇文章介紹資料科學中四種常見且重要的矩陣:單位矩陣、對稱矩陣、反矩陣和奇異矩陣,並以淺顯易懂的比喻說明其特性和用途,幫助讀者快速理解矩陣在機器學習、影像處理和推薦系統中的應用。
2025/08/04
這篇文章介紹資料科學中四種常見且重要的矩陣:單位矩陣、對稱矩陣、反矩陣和奇異矩陣,並以淺顯易懂的比喻說明其特性和用途,幫助讀者快速理解矩陣在機器學習、影像處理和推薦系統中的應用。
看更多
你可能也想看
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
透過蝦皮分潤計畫,輕鬆賺取零用金!本文分享5-6月實測心得,包含數據流程、實際收入、平臺優點及注意事項,並推薦高分潤商品,教你如何運用空閒時間創造被動收入。
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
單身的人有些會養寵物,而我養植物。畢竟寵物離世會傷心,植物沒養好再接再厲就好了~(笑)
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
不知你有沒有過這種經驗?衛生紙只剩最後一包、洗衣精倒不出來,或電池突然沒電。這次一次補貨,從電池、衛生紙到洗衣精,還順便分享使用心得。更棒的是,搭配蝦皮分潤計畫,愛用品不僅自己用得安心,分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E,輕鬆上手,隨時隨地賺取分潤!
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
身為一個典型的社畜,上班時間被會議、進度、KPI 塞得滿滿,下班後只想要找一個能夠安靜喘口氣的小角落。對我來說,畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉,還是慢慢描繪喜歡的插畫人物,那個專注在筆觸和色彩的過程,就像在幫心靈按摩一樣,讓緊繃的神經慢慢鬆開。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
Python資料視覺化在數據分析中扮演關鍵角色,透過視覺化捕捉數據模式、趨勢和異常,透過Matplotlib等工具創建專業圖表變相對簡單和高效。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
資料前處理(Data Preprocessing)中的重要角色-缺失值處理。從檢查、刪除到填充缺失值,以及插值法和機器學習算法的應用方法。Pandas 缺失值處理基礎方法、進階填充缺失值、鐵達尼號存活預測資料集的示例和機器學習算法填補缺失值方法的介紹與使用。
Thumbnail
如何用Python將DataFrame中的資料擷取維新的DataFrame?
Thumbnail
如何用Python將DataFrame中的資料擷取維新的DataFrame?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News