《從零開始的資料科學筆記》Day#22: 機器學習進階技巧四

更新 發佈閱讀 3 分鐘
vocus|新世代的創作平台

📚 降維技術

降維是將高維數據轉換為低維表示的過程,同時保留數據的關鍵信息。這一技術對於現代機器學習至關重要,因為:

  • 降低複雜度:減少特徵數量,簡化模型,加速訓練
  • 消除冗餘:移除高度相關特徵,提高模型穩定性
  • 減輕維度災難:在高維空間中,數據變得稀疏,距離度量失去意義
  • 視覺化:將高維數據投影到2D/3D空間進行可視化分析
  • 降低噪聲:過濾掉無關信息,聚焦於數據的本質結構

主成分分析 (PCA)

PCA是最常用的線性降維技術,它尋找數據方差最大的方向(主成分),並將數據投影到這些方向上,可有效地將特徵數量大幅減少。

vocus|新世代的創作平台
  • 適用場景:
    • 特徵數量大且存在高度相關性
    • 需要降低模型複雜度
    • 數據壓縮和去噪
    • 預處理時間序列或圖像數據
    • 多變量數據的探索性分析
  • 優缺點:
  • ✅ 有效減少特徵維度,同時最大程度保留數據變異性
  • ✅ 消除特徵間的線性相關性
  • ✅ 數學基礎紮實,計算高效
  • ✅ 減少過擬合風險
  • ❌ 只能捕捉線性關係
  • ❌ 不適合處理非線性結構的數據
  • ❌ 主成分缺乏直觀解釋性
  • ❌ 可能丟失對目標變量有判別力的信息

線性判別分析 (LDA)

LDA是一種有監督的降維技術,它尋找能最大化類間差異同時最小化類內差異的方向。

vocus|新世代的創作平台
  • PCA 通過將高維特徵投影到能捕獲最大數據方差的主成分空間中,維度間的相關性得以保留,但它與數據的分類標籤無關。從圖中可以看出,PCA的結果中兩類數據並未完全分開。
  • LDA 降維主要關注類別的分離,尋找能夠最大化類間距離並最小化類內距離的方向。由圖可見,經LDA降維後的數據在一維空間中明顯分離,對分類任務更加有利。
  • 適用場景:
    • 分類問題的特徵提取
    • 需要保持類別可分性的降維
    • 類別間分布相對明確
    • 作為分類器的預處理步驟
  • 優缺點:
  • ✅ 最大化類別可分性,提高分類性能
  • ✅ 有監督的降維,利用了標籤信息
  • ✅ 對於有明確類別結構的數據非常有效
  • ✅ 可以作為分類器直接使用
  • ❌ 要求數據服從多元正態分布
  • ❌ 假設各類別協方差相等
  • ❌ 維度上限受限於類別數-1
  • ❌ 只能捕捉線性判別邊界

t-分布隨機近鄰嵌入 (t-SNE)

t-SNE是一種非線性降維技術,特別適合高維數據的可視化,它能夠保留數據的局部結構和全局結構。

vocus|新世代的創作平台
  • 適用場景:
    • 高維數據的探索性分析和可視化
    • 需要揭示數據聚類結構
    • 非線性流形的降維
    • 圖像和文本等複雜數據集的可視化
  • 優缺點:
    • ✅ 極其擅長揭示數據中的聚類結構
    • ✅ 能捕捉數據的非線性關係
    • ✅ 保留局部和全局數據結構
    • ✅ 視覺化效果出色,易於解釋
    • ❌ 計算成本高,難以應用於大型數

技術比較

vocus|新世代的創作平台




留言
avatar-img
Ethan的AI學習筆記
8會員
33內容數
我是一個不務正業的資料科學家,從零開始學習的路途上跌跌撞撞,跌過許多坑,也撞過許多牆... 當有人迷失方向時,希望這些筆記可以成為你的指南針。
Ethan的AI學習筆記的其他內容
2025/11/22
🧲 特徵轉換方法 特徵轉換是調整數值型特徵分布形態的過程,幫助模型更有效地學習和提高預測性能。良好的特徵轉換可以: 改善數據分布:使偏斜分布更加對稱 降低異常值影響:減少極端值對模型的干擾 捕捉非線性關係:讓線性模型可以學習複雜模式 提高訓練穩定性:加速梯度下降收斂過程
Thumbnail
2025/11/22
🧲 特徵轉換方法 特徵轉換是調整數值型特徵分布形態的過程,幫助模型更有效地學習和提高預測性能。良好的特徵轉換可以: 改善數據分布:使偏斜分布更加對稱 降低異常值影響:減少極端值對模型的干擾 捕捉非線性關係:讓線性模型可以學習複雜模式 提高訓練穩定性:加速梯度下降收斂過程
Thumbnail
2025/11/08
🪛 特徵編碼 為什麼需要特徵編碼? 特徵編碼是將非數值型資料(如類別、文本等)轉換為數值形式的過程,這是機器學習模型處理資料的必要步驟,因為: 模型數值需求:大多數機器學習算法只接受數值輸入,無法直接處理文字或類別資料 語義保存:編碼過程必須保留原始類別的語義信息,不同編碼方式會保留不同的
Thumbnail
2025/11/08
🪛 特徵編碼 為什麼需要特徵編碼? 特徵編碼是將非數值型資料(如類別、文本等)轉換為數值形式的過程,這是機器學習模型處理資料的必要步驟,因為: 模型數值需求:大多數機器學習算法只接受數值輸入,無法直接處理文字或類別資料 語義保存:編碼過程必須保留原始類別的語義信息,不同編碼方式會保留不同的
Thumbnail
2025/10/24
大家應該都實際練習過機器學習的四大技術了,包含迴歸分析、分類分析、分群分析以及時間序列分析。 在機器學習模型的開發過程中,我們常將焦點放在演算法的選擇與模型的訓練上,但實際上,一個高效且穩健的模型,往往取決於資料的前處理與特徵的設計。隨著模型複雜度提升,過擬合、特徵尺度不一致以及高維資料噪聲等問題會
Thumbnail
2025/10/24
大家應該都實際練習過機器學習的四大技術了,包含迴歸分析、分類分析、分群分析以及時間序列分析。 在機器學習模型的開發過程中,我們常將焦點放在演算法的選擇與模型的訓練上,但實際上,一個高效且穩健的模型,往往取決於資料的前處理與特徵的設計。隨著模型複雜度提升,過擬合、特徵尺度不一致以及高維資料噪聲等問題會
Thumbnail
看更多
你可能也想看
Thumbnail
現在虛擬貨幣投資愈來愈熱門 確實有許多研究的空間 例如鏈上數據 k線數據 新聞消息 都有可能拿來當作交易的判斷 我們常常會做很多分析之後來做交易 我們做交易的流程可能是這樣的 1.(幣種 交易週期 當前時間) 2.獲取多方數據 3.聚合數據 4.複雜買賣訊號計算 5.輸出買賣訊號
Thumbnail
現在虛擬貨幣投資愈來愈熱門 確實有許多研究的空間 例如鏈上數據 k線數據 新聞消息 都有可能拿來當作交易的判斷 我們常常會做很多分析之後來做交易 我們做交易的流程可能是這樣的 1.(幣種 交易週期 當前時間) 2.獲取多方數據 3.聚合數據 4.複雜買賣訊號計算 5.輸出買賣訊號
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
在 Excel 中,INDEX 函數能根據指定的列號與欄號,回傳陣列或範圍中的對應值。它是查找與引用的基礎函數之一,常與 MATCH 搭配使用,能取代 VLOOKUP/HLOOKUP,提供更高的彈性與效能。 用途:根據列號與欄號,回傳陣列中的值
Thumbnail
在 Excel 中,INDEX 函數能根據指定的列號與欄號,回傳陣列或範圍中的對應值。它是查找與引用的基礎函數之一,常與 MATCH 搭配使用,能取代 VLOOKUP/HLOOKUP,提供更高的彈性與效能。 用途:根據列號與欄號,回傳陣列中的值
Thumbnail
Backtrader 是一個非常受歡迎且功能強大的 Python 回測框架,主要用於量化交易策略的開發、測試與實盤交易。它支援各種市場資料(如股票、期貨、外匯、加密貨幣等)以及多種回測功能,並且能夠輕鬆地擴展以適應各種交易策略。 Backtrader 的核心概念與結構 Backtrader 主要
Thumbnail
Backtrader 是一個非常受歡迎且功能強大的 Python 回測框架,主要用於量化交易策略的開發、測試與實盤交易。它支援各種市場資料(如股票、期貨、外匯、加密貨幣等)以及多種回測功能,並且能夠輕鬆地擴展以適應各種交易策略。 Backtrader 的核心概念與結構 Backtrader 主要
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
本文比較傳統程式設計與機器學習兩種程式設計範式的運作方式、優缺點及應用場景,並探討未來發展趨勢,包含傳統程式設計與AI混合應用、自動化程式設計及AI低程式碼平臺等。
Thumbnail
本文比較傳統程式設計與機器學習兩種程式設計範式的運作方式、優缺點及應用場景,並探討未來發展趨勢,包含傳統程式設計與AI混合應用、自動化程式設計及AI低程式碼平臺等。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News