數據準備與模型選擇

含有「數據準備與模型選擇」共 45 篇內容
全部內容
發佈日期由新至舊
決定係數(Coefficient of Determination),通常以 R^2 表示,是衡量迴歸模型擬合效果的一個統計指標。它代表模型解釋的目標變量變異的比例,用於評估模型對數據的解釋能力。 R^2 = 1 表示模型完美擬合數據(預測值完全等於真實值); R^2 表示模型表現等同於只用平均
Target Encoding(目標編碼)是一種用於機器學習中處理類別變數的編碼技術,特別適合高基數(高種數量)類別特徵。它通過將類別值替換成該類別在目標變量上的統計值(通常是目標的均值),使模型能夠有效利用類別與目標之間的關聯信息。 Target Encoding原理 對於分類或回歸問題,計算
Ordinal Encoding(序數編碼)是一種將**有序類別型變數**(ordinal categorical variables)轉換為數值型變數的編碼方法。它依據類別之間的固有順序,將每個類別分配一個整數,以保留類別間的大小或等級關係,常用於機器學習的數據預處理階段。 Ordinal En
支持向量機(SVM)的核技巧(Kernel Trick)是一種用來解決非線性分類問題的有效方法。它的核心思想是將原本不可線性分離的數據,透過一個非線性映射函數,投射到高維度的特徵空間中,使數據在高維空間可線性分割,然後再在該空間中運用線性支持向量機進行分類。 核技巧優點 能有效解決高維非線性
分層抽樣(Stratified Sampling)是一種統計抽樣方法,將總體按特定特徵或規則劃分為若干個同質的子群組(稱為層),然後對每個層內獨立進行隨機抽樣。這種方法結合了分組與隨機抽樣的優點,提高了樣本的代表性和估計的精度。 分層抽樣的原理與步驟 劃分層次:根據變量(如年齡、性別、地區)將
robots.txt協議是一種網站用來指示網路爬蟲(如搜尋引擎機器人)哪些頁面可以爬取、哪些禁止訪問的標準協議。它通過在網站根目錄放置一個名為「robots.txt」的純文字文件,控制爬蟲的爬取行為,幫助網站控制流量和保護私有內容,同時優化搜尋引擎的爬取效率。 robots.txt的主要功能 限
PR曲線(Precision-Recall Curve,精確率-召回率曲線)是一種用來評估分類模型性能,特別是二分類任務中,通過不同分類閾值下的精確率(Precision)與召回率(Recall)的變化關係繪製而成的曲線。 PR曲線定義: 橫軸(X軸)是召回率(Recall),表示模型在所有實際
線性回歸的基本假設是指在建立線性回歸模型時對數據和誤差項提出的前提條件,這些假設保證了模型的合理性和統計推論的有效性。主要有以下幾個核心假設: 1. 線性關係 應變數(Y)和自變數(X)之間存在線性關係,即模型形式可表達為 2. 誤差項期望為零 誤差項的期望值為零,表示誤差沒有系統性的偏差
對數轉換(Logarithmic Transformation)是將數據中的每個值轉換為其對數值的過程,常用於數據分析和機器學習中,以改善數據分佈、降低偏態,並使數據更接近常態分布。 對數轉換的主要目的 減少偏態(Skewness):將右偏分佈的數據拉近對稱,有利於統計模型的假設; 縮小數據範
缺失值模式是指數據中缺失值的產生和存在的機制,理解不同模式有助於選擇合適的缺失值處理方法。數據科學和機器學習中,缺失值主要分為三種類型: 1. 完全隨機缺失(MCAR, Missing Completely At Random) 缺失值的產生完全隨機,與數據中任何其他變量的值無關。 換句話說,