《從零開始的資料科學筆記》Day#22: 機器學習進階技巧四

Ethan伊森

發佈於《從零開始的資料科學筆記》

2025/12/07 更新2025/12/07 發佈閱讀 3 分鐘

📚 降維技術

降維是將高維數據轉換為低維表示的過程，同時保留數據的關鍵信息。這一技術對於現代機器學習至關重要，因為：

降低複雜度：減少特徵數量，簡化模型，加速訓練
消除冗餘：移除高度相關特徵，提高模型穩定性
減輕維度災難：在高維空間中，數據變得稀疏，距離度量失去意義
視覺化：將高維數據投影到2D/3D空間進行可視化分析
降低噪聲：過濾掉無關信息，聚焦於數據的本質結構

主成分分析 (PCA)

PCA是最常用的線性降維技術，它尋找數據方差最大的方向（主成分），並將數據投影到這些方向上，可有效地將特徵數量大幅減少。

適用場景：
- 特徵數量大且存在高度相關性
- 需要降低模型複雜度
- 數據壓縮和去噪
- 預處理時間序列或圖像數據
- 多變量數據的探索性分析
優缺點：
✅ 有效減少特徵維度，同時最大程度保留數據變異性
✅ 消除特徵間的線性相關性
✅ 數學基礎紮實，計算高效
✅ 減少過擬合風險
❌ 只能捕捉線性關係
❌ 不適合處理非線性結構的數據
❌ 主成分缺乏直觀解釋性
❌ 可能丟失對目標變量有判別力的信息

線性判別分析 (LDA)

LDA是一種有監督的降維技術，它尋找能最大化類間差異同時最小化類內差異的方向。

PCA 通過將高維特徵投影到能捕獲最大數據方差的主成分空間中，維度間的相關性得以保留，但它與數據的分類標籤無關。從圖中可以看出，PCA的結果中兩類數據並未完全分開。
LDA 降維主要關注類別的分離，尋找能夠最大化類間距離並最小化類內距離的方向。由圖可見，經LDA降維後的數據在一維空間中明顯分離，對分類任務更加有利。
適用場景：
- 分類問題的特徵提取
- 需要保持類別可分性的降維
- 類別間分布相對明確
- 作為分類器的預處理步驟
優缺點：
✅ 最大化類別可分性，提高分類性能
✅ 有監督的降維，利用了標籤信息
✅ 對於有明確類別結構的數據非常有效
✅ 可以作為分類器直接使用
❌ 要求數據服從多元正態分布
❌ 假設各類別協方差相等
❌ 維度上限受限於類別數-1
❌ 只能捕捉線性判別邊界

t-分布隨機近鄰嵌入 (t-SNE)

t-SNE是一種非線性降維技術，特別適合高維數據的可視化，它能夠保留數據的局部結構和全局結構。

適用場景：
- 高維數據的探索性分析和可視化
- 需要揭示數據聚類結構
- 非線性流形的降維
- 圖像和文本等複雜數據集的可視化
優缺點：
- ✅ 極其擅長揭示數據中的聚類結構
- ✅ 能捕捉數據的非線性關係
- ✅ 保留局部和全局數據結構
- ✅ 視覺化效果出色，易於解釋
- ❌ 計算成本高，難以應用於大型數

技術比較

Ethan的AI學習筆記《從零開始的資料科學筆記》

留言

Ethan的AI學習筆記

8會員

33內容數

我是一個不務正業的資料科學家，從零開始學習的路途上跌跌撞撞，跌過許多坑，也撞過許多牆... 當有人迷失方向時，希望這些筆記可以成為你的指南針。

Ethan的AI學習筆記的其他內容

2025/11/22

《從零開始的資料科學筆記》Day#21: 機器學習進階技巧三

🧲 特徵轉換方法特徵轉換是調整數值型特徵分布形態的過程，幫助模型更有效地學習和提高預測性能。良好的特徵轉換可以：改善數據分布：使偏斜分布更加對稱降低異常值影響：減少極端值對模型的干擾捕捉非線性關係：讓線性模型可以學習複雜模式提高訓練穩定性：加速梯度下降收斂過程

2025/11/22

《從零開始的資料科學筆記》Day#21: 機器學習進階技巧三

2025/11/08

《從零開始的資料科學筆記》Day#20: 機器學習進階技巧二

🪛 特徵編碼為什麼需要特徵編碼? 特徵編碼是將非數值型資料（如類別、文本等）轉換為數值形式的過程，這是機器學習模型處理資料的必要步驟，因為：模型數值需求：大多數機器學習算法只接受數值輸入，無法直接處理文字或類別資料語義保存：編碼過程必須保留原始類別的語義信息，不同編碼方式會保留不同的

2025/11/08

《從零開始的資料科學筆記》Day#20: 機器學習進階技巧二

2025/10/24

《從零開始的資料科學筆記》Day#19: 機器學習進階技巧一

大家應該都實際練習過機器學習的四大技術了，包含迴歸分析、分類分析、分群分析以及時間序列分析。在機器學習模型的開發過程中，我們常將焦點放在演算法的選擇與模型的訓練上，但實際上，一個高效且穩健的模型，往往取決於資料的前處理與特徵的設計。隨著模型複雜度提升，過擬合、特徵尺度不一致以及高維資料噪聲等問題會

2025/10/24

《從零開始的資料科學筆記》Day#19: 機器學習進階技巧一

看更多

你可能也想看

于正龍（Ricky）的沙龍

Vedanta 一個簡潔實用的加密貨幣交易策略回測與自動化交易服務

現在虛擬貨幣投資愈來愈熱門確實有許多研究的空間例如鏈上數據 k線數據新聞消息都有可能拿來當作交易的判斷我們常常會做很多分析之後來做交易我們做交易的流程可能是這樣的 1.(幣種交易週期當前時間) 2.獲取多方數據 3.聚合數據 4.複雜買賣訊號計算 5.輸出買賣訊號

#程式#比特幣#交易

2025/07/26

于正龍（Ricky）的沙龍

Vedanta 一個簡潔實用的加密貨幣交易策略回測與自動化交易服務

#程式#比特幣#交易

2025/07/26

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11