【特徵工程全攻略】模型不準?問題藏在資料裡!從數據清洗到特徵轉換的黃金法則 (中級)

更新 發佈閱讀 4 分鐘

很多人誤以為 AI 規劃師的工作就是每天鑽研高深的演算法,但真相往往比較骨感:我們有 80% 的時間都在跟「髒資料」搏鬥。

一、 數據藍圖:先看清楚你的「礦石」長什麼樣

在動手處理前,得先搞清楚手上的資料屬於哪一類。這決定了後續要動什麼樣的手術。

vocus|新世代的創作平台
  • 結構化數據: 就像 Excel 表格或 SQL 資料庫,每一列、每一行都整整齊齊。這是最方便分析的「乖寶寶」。
  • 半結構化數據: 像是 JSON 或 XML 檔案,雖然有標籤(Tags)告訴你這欄是什麼,但格式比較靈活,不會死板地對齊。
  • 非結構化數據: 圖片、影音、社群媒體的留言。這類資料最隨性,需要透過深度學習或 NLP 技術先轉化,模型才學得動。

這些資料的來源也很有學問。除了自家產品產生的紀錄,有時得靠網路爬蟲去抓取公開資訊,或是透過 API 與其他軟體系統交換數據。


二、 煉金第一步:數據清洗的排毒程序

拿到資料後,別急著丟進模型。沒經過清洗的資料就像帶泥的礦石,會讓模型「消化不良」。

1. 遺缺值的抉擇

資料欄位空白是常態。你可以選擇直接刪除,但這可能導致樣本量大減。聰明的做法是填補:利用平均數或中位數。

  • 規劃師筆記: 如果資料分佈很不平均(有極端值),請優先選擇中位數,才不會被那些「有錢人」拉高了整體的平均水平。

2. 離群值的處置

那些遠離群落的數據點,有時是輸入錯誤(例如年齡 -5 歲),有時則是深具意義的特殊訊號(例如金融詐欺的大額交易)。

  • 判斷準則: 透過箱形圖 (Box Plot) 找出異常點。如果確定是雜訊,就修正或剔除;如果是珍貴的異常訊號,則要保留並單獨標記。

三、 特徵轉換:把人類語言翻成機器的數字

AI 本質上只聽得懂數字。當資料裡出現「城市」、「顏色」或「等級」時,得幫機器做翻譯。

這裡有幾招常用的翻譯術:

  • 標籤編碼 (Label Encoding): 直接給類別編號(台北=0、台中=1、高雄=2)。適合有「順序感」的資料,如:初級、中級、高級。缺點是模型可能會誤以為 2 比 0 大。
  • 獨熱編碼 (One-Hot Encoding): 為每個類別開一個專屬欄位(只有 0 跟 1)。適合「沒有大小之分」的類別,能避免模型產生錯誤的權重判斷。
  • 目標編碼 (Target Encoding): 當類別太多(例如有幾百個鄉鎮市區)導致欄位爆炸時,改用該類別對應預測結果的「平均值」來代表它,能有效精簡空間。
  • 分箱 (Binning): 把年齡這類連續數字切成「青年、中年、老年」等區間。這能增加模型的穩定性,對抗極端值的偷襲。

四、 生存法則:特徵尺度的統一

這是新手最容易踩坑的地方。想像一下,模型正在處理兩個特徵:「年齡(0-100)」與「年薪(0-1,000,000)」。 如果不縮放,年薪的微小波動會完全蓋過年齡的變化。這就是「尺度霸凌」。

這會造成三個慘烈結果:

  1. 距離計算扭曲: 靠「距離」判斷相似度的模型(如 KNN 或 SVM),會完全被大數字牽著走。
  2. 梯度下降不穩: 模型在更新權重時會像酒駕一樣劇烈震盪,遲遲無法收斂到最佳解。
  3. 正則化偏差: 為了防止過度擬合的「處罰機制」,會不公平地針對數字小的特徵,讓它們失去發言權。

解藥如下:

  • Min-Max 正規化: 把數據通通壓縮到 0 與 1 之間。
  • Z-Score 標準化: 將數據轉為平均數 0、標準差 1 的分佈。確保每個特徵都在同一條起跑線上公平競爭。

結語:AI 規劃師的真實價值

數據處理不是簡單的體力活,而是一連串的決策。你要判斷何時補值、何時轉碼、何時縮放。這些前置作業做足了,後面的模型才能跑出真正的預測威力。

面對一個表現不佳的模型,先別急著更換複雜的演算法。回過頭去檢查你的數據煉金室,答案往往就藏在那些被忽視的原始特徵裡。

留言
avatar-img
iPAS自學路|AI應用規劃師備考筆記與考點解析
372會員
97內容數
職場資深管理職,非資訊本科,一次通過 iPAS AI 應用規劃師初級與中級雙證照。頻道累積 200+ 集影片、80+ 篇備考文章、沙龍會員 300+ 人。白話考點解析搭配 YouTube 影音導航,專為非本科上班族設計的通勤時間備考工具。
你可能也想看
Thumbnail
簡短介紹常見的機器學習模型如邏輯迴歸、隨機森林、K-Means、Q-Learning、CNN等
Thumbnail
簡短介紹常見的機器學習模型如邏輯迴歸、隨機森林、K-Means、Q-Learning、CNN等
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文探討監督式學習、非監督式學習、半監督式學習和強化式學習等機器學習模型的基礎概念、應用情境和差異,並涵蓋自監督式學習等其他學習方式。文中包含多個實際應用案例,並提供各種類型之間的比較表格,以利讀者理解和應用。
Thumbnail
本文探討監督式學習、非監督式學習、半監督式學習和強化式學習等機器學習模型的基礎概念、應用情境和差異,並涵蓋自監督式學習等其他學習方式。文中包含多個實際應用案例,並提供各種類型之間的比較表格,以利讀者理解和應用。
Thumbnail
機器學習(Machine Learning)是一種讓電腦從資料中學習並改進表現的技術,而無需人類逐一編寫具體指令。想像一下,你教一個小孩認識「貓」和「狗」,不是直接告訴他每張圖片的答案,而是給他看許多例子,讓他自己找出規律。 這個想法最早由Arthur Sam
Thumbnail
機器學習(Machine Learning)是一種讓電腦從資料中學習並改進表現的技術,而無需人類逐一編寫具體指令。想像一下,你教一個小孩認識「貓」和「狗」,不是直接告訴他每張圖片的答案,而是給他看許多例子,讓他自己找出規律。 這個想法最早由Arthur Sam
Thumbnail
本文介紹了 MLOps 的核心概念,包括模型部署、監控、資料與模型迭代管理,以及自動化測試與更新,並透過實際案例展示其在金融風控和雲端 API 部署中的應用。
Thumbnail
本文介紹了 MLOps 的核心概念,包括模型部署、監控、資料與模型迭代管理,以及自動化測試與更新,並透過實際案例展示其在金融風控和雲端 API 部署中的應用。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News