Back to the basic (二) - Feature engineering

Boo.Ideas

發佈於Learner

2026/05/11 更新2026/05/11 發佈閱讀 5 分鐘

目的

讓藏在資料中的資訊有機會被模型學習到，有兩個條件 :

特徵與目標變數之間存在關係
模型能夠捕捉這樣的關係

找出有價值的特徵

特徵有上百種，找出最有價值的先做，最有效率，可以採用多種方法來找出價值的特徵，Mutual information 是其中一種。

Mutual informant 代表知道一個量的資訊後，能在多大程度上降低對另一個量的不確定性。如果知道某個特徵，能增加多少對目標變數的把握。它好算好解讀，還能捕捉非線性關係，不過仍是單變量指標，不能捕捉與其他特徵的交互關係。

相似概念，如 Correlation、Information Gain..等

建立新特徵

先了解資料的定義與蒐集的狀況方式，再來可以發揮 Domain knowledge 憑經驗或直覺組合出新特徵。

幾個常見有效的方法 :

1. Ratio : 本質上多數模型都難以學習特徵之間的比例關係，所以可以自己建好再餵給模型

2. 數學公式 : 比例都學不好了，更不用提數學公式，最好轉換好再餵給模型。

3. 改變分布與標準化 : 很多特徵極端 skewed，適當透過 log 等方式分布轉換，再標準化統一尺度，方便模型學習。

- 有 0 用log(1+x)
- 有負用 Yeo-Johnson

4. Counts : 簡單的計數也能提供額外資訊，因為有些特徵或因子可能成組出現，例如一個的預期壽命，可以 counts 「身上有幾種高風險因子」，例如肥胖 + 抽菸 + 喝酒 = 3。

- Tree based 常有奇效。

5. 特徵拆解 : 現實世界很多數字、符號、標記是有規律的，例如電話國碼、車牌號碼、地址等，合在一起提供的資訊混雜，難以學習。例如身份證字號拆開可得到「地理 + 性別」

6. 特徵組合 : 出於領域知識或是直覺組成複合特徵，例如 : 品牌 + 類型，「toyota」+「房車」 & 「toyota」+ 「跑車」，前者較不保值，後者較保值。

7. 群組轉換 : 結合 grouping feature & aggregation function 來捕捉交互作用，例如某個縣市的平均收入 or 各種電影類型的播放頻率。頻率有時在異常偵測很有效果，因為異常通常罕見。

Advanced method :

1. Cluster : 很多資料複雜到整體難以學習，但先用非監督算法，將特徵空間中相近的資料點／樣本先分類在一起，賦予一個分群特徵值，能讓模型學習多個片段內部的pattern，而不是全面複雜的pattern

2. 降維：將原本較高維度的特徵空間，轉換或壓縮成較低維度的表示，在盡量保留重要資訊的同時，減少冗餘、噪音。例如 PCA 找出一組特徵的加權組合，把多個原始特徵轉換成新的主成分。

- 先標準化統一尺度再做
- 直接拿 components 當特徵：把 PC1、PC2 等加入模型。
- 觀察主成分啟發新特徵：根據 loading 設計 ratio、product、difference 等特徵。
- 降維：用少數主成分保留大部分資訊。
- 異常偵測：觀察資料在低變異方向上的不尋常變化。如果某筆資料在平常很少變動的方向上突然很突出，它可能就是異常值，例如 sensor A 跟 B 突然不同步。
- 降噪：保留主要訊號，丟掉可能是雜訊的成分。
- 去相關：把高度相關的原始特徵轉成彼此不相關的主成分。

3. Target Encoding : 直接把類別特徵值，轉換為該類別下由 target value 衍生之統計值。

- 善用領域知識，如果經驗上品牌很重要，但模型學不到，就可以試試
- 對未知類別值無法處理，可採全體平均
- 罕見類別不具代表性，可採平滑法，然後靠直覺挑合理的。
- 潛在的data leakage風險，因為用到了它在真實預測時不應該知道的 target 資訊

留言

Boo.ideas

31會員

15內容數

還在寫

你可能也想看

madefrom.hk

Back to the Future Part III(1990 film)探索《回到未來》中的時間旅行：馬蒂與博士的冒

《回到未來》系列電影以其獨特的時間旅行情節和扣人心弦的冒險故事深受觀眾喜愛。在這篇文章中，我們將深入探討1955年11月，馬蒂·麥佛萊（Marty McFly）如何目睹艾美特·“博士”·布朗（Dr. Emmett "Doc" Brown）駕駛德羅寧（DeLorean）時光機消失，以及隨後發生的驚險事

#回到未來#旅行#時光機

2025/04/15

madefrom.hk

Back to the Future Part III(1990 film)探索《回到未來》中的時間旅行：馬蒂與博士的冒

#回到未來#旅行#時光機

2025/04/15

金木研的沙龍

Self-care challenge #30 Back to the Basic| 從頭開始

這個系列從日更，變成週更，到後來一個月不見得有一篇文。靈感枯竭固然是其中一個原因，好好照顧自己到後來，其實就是把每一個小小的好習慣集結起來。

#2023年#SelfCare#從頭開始

2022/12/31

金木研的沙龍

Self-care challenge #30 Back to the Basic| 從頭開始

#2023年#SelfCare#從頭開始

2022/12/31

紐約台灣客的沙龍

[賞影音] <Back to the Future>的搖滾名曲

電影<Back to the Future>中有一段舞會上男主角演奏吉他，唱著一首搖滾樂歌曲，讓我念念不忘至今．後來才知道這首歌叫做<Johnny B. Goode>．

#賞影音#歌曲#搖滾

2021/12/22

紐約台灣客的沙龍

[賞影音] <Back to the Future>的搖滾名曲

電影<Back to the Future>中有一段舞會上男主角演奏吉他，唱著一首搖滾樂歌曲，讓我念念不忘至今．後來才知道這首歌叫做<Johnny B. Goode>．

#賞影音#歌曲#搖滾

2021/12/22

金大建築全體

［畢設.4］Back to the Crime Scene

在上期所提到的建立腳本下的體驗路徑與相應而來產生的使用者模式，三種狀態對應了不同的空間權利，以路徑的形式來探索空間中的複雜危險體驗。

#體驗路徑#女性空間

2021/09/12

金大建築全體

［畢設.4］Back to the Crime Scene

在上期所提到的建立腳本下的體驗路徑與相應而來產生的使用者模式，三種狀態對應了不同的空間權利，以路徑的形式來探索空間中的複雜危險體驗。

#體驗路徑#女性空間

2021/09/12

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

5 月，方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間，每週都會有新的任務地圖與陪跑計畫，從最簡單的帳號使用、沙龍建立，到帶著你從一句話、一張照片開始，一步一步找到屬於自己的創作節奏。不需要長篇大論，不需要完美的文筆，只需要帶上你今天的日常，就可以出發。征服創作島，抱回靈感與大獎！

#創作#vocus#方格創作島

2026/04/23

方格子 vocus 官方沙龍

🏝️ 方格創作島｜【創作地圖組】全攻略：解鎖靈感，再抽精美家電 ദ്ദി(•̀ ᗜ <)

#創作#vocus#方格創作島

2026/04/23

madefrom.hk

Back to the Future Part II(1989 film-未來之旅：解密1985年10月26日的時光冒險

1985年10月26日，布朗博士（Dr. Emmett Brown）以意想不到的方式駕駛著一輛DeLorean時光機來到我們面前。

#博士#時光機#文化

2025/04/15

madefrom.hk

Back to the Future Part II(1989 film-未來之旅：解密1985年10月26日的時光冒險

1985年10月26日，布朗博士（Dr. Emmett Brown）以意想不到的方式駕駛著一輛DeLorean時光機來到我們面前。

#博士#時光機#文化

2025/04/15

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

當時間變少之後，看戲反而變得更加重要——這是在成為母親之後，我第一次誠實地面對這一件事：我沒有那麼多的晚上，可以任性地留給自己了。看戲不再只是「今天有沒有空」，而是牽動整個週末的結構，誰應該照顧孩子，我該在什麼時間回到家，隔天還有沒有精神帶小孩⋯⋯於是，我不得不學會一件以前並不擅長的事：挑選。

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

madefrom.hk

Back to the Future(1985 film)

《回到未來》是一部1985年上映的經典科幻電影，由勞勃·辛密克斯執導，麥可·J·福克斯主演。這部電影不僅在當時引起了廣泛的關注，也在影史上留下了深遠的影響。本文將探討電影中主要角色的背景及其在劇情中所扮演的重要角色。故事發生在加州的希爾谷小鎮，主角馬提·麥佛萊是一名普通的青少年。他的家庭背景

#角色#回到未來

2025/04/15

madefrom.hk

Back to the Future(1985 film)

#角色#回到未來

2025/04/15

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28