Back to the basic (一)

2026/05/08 更新2026/05/08 發佈閱讀 4 分鐘

過去不管在線上線下修了一些 AIML 課，也額外讀了一些書籍，借助這些額外的知識概念與思考，並正確地提供給 AI，常就能提出一個 above average 的答案，拿到不錯的結果，不過真正的 hands-on 才是親自走一次的收穫一定會步一樣，相信更能獲得解決實際且陌生問題的寶貴能力。

所以 Back to the basic 解一個基本問題開始 - Titanic。

Data overview

dataset 中有大量的 cabin 與 age 缺值，那該如何解決。

補缺值的觀念

最大前提 : 缺值本身是否為隨機的，若是才有填補依據。

要填補缺值就是要思考要用怎樣的分組來補 mode or median or mean，力求分組內變異性極低。
量化指標 : 組內 std 以及 iqr，前者看所有點距離平均的距離(易受極端值影響)，後者看中間 50% 的人跨度多大(不受極端值影響)。
圖表參考 : box plot

缺值的類型:

MCAR : 缺值純隨機，取全體的mean or median，但這是作為 fallback 策略

MAR : 缺失跟某個已知變數有關，把變數作為條件設定好，缺失就能更有依據用 Group-based 填補

MNAR : 缺失原因與缺失值本身的數值有關，這種任何 Group-based 都分不出來，可考慮加一個binary feature 直接讓模型去學

EDA

先看一下資料長怎樣，作為參數調整或特徵工程的依據，不要一次全丟給模型處理。

重點可先看 :

Target 分佈（38.4%，輕微不平衡）
單變數分析 : 看特徵的分布、極端值、比例等
雙變數分析 : 看特徵跟target的關係，有些特徵帶有明確資訊，有些看起來無關。
交互作用 : 挑直覺起來可能有關係的一組特徵一起看
train/val/test 的切法是否趨近於同一分布。
1. 統計檢定（WS distance(數值)、KS 檢定(數值)、chi-square(類別)）: 針對單一特徵直接看分布
2. Adversarial validation : 訓練分類器，看 AUC

Hypothesis

透過 EDA 的observation可以建立一些假設，並思考是否該進行實驗驗證 :

對成果的貢獻性大小，太小就不用驗證了
跑完 baseline 之後再一步一步驗證，才知道其貢獻。
這些紀錄是為了讓 feature 的決策是有依據的

Baseline and Iterate

先測試一下 rule based、基礎模型的效果，作為後續優化的參考標準。

先回過頭實驗 hypothesis，測試 feature engineering 會不會帶來額外的資訊貢獻，是否有些缺乏的訊號藏在特徵中可以提供給模型學習，feature上的資訊已經被榨乾的差不多了，再來調整超參數或模型。

分兩層思考:

feature 是否提供足夠的資訊 : EDA + 特徵工程
模型能不能學到資訊 : 超參數 + 模型選擇

留言

Boo.ideas

31會員

16內容數

還在寫

你可能也想看

madefrom.hk

Back to the Future(1985 film)

《回到未來》是一部1985年上映的經典科幻電影，由勞勃·辛密克斯執導，麥可·J·福克斯主演。這部電影不僅在當時引起了廣泛的關注，也在影史上留下了深遠的影響。本文將探討電影中主要角色的背景及其在劇情中所扮演的重要角色。故事發生在加州的希爾谷小鎮，主角馬提·麥佛萊是一名普通的青少年。他的家庭背景

#角色#回到未來

2025/04/15

madefrom.hk

Back to the Future(1985 film)

#角色#回到未來

2025/04/15

紐約台灣客的沙龍

[賞影音] <Back to the Future>的搖滾名曲

電影<Back to the Future>中有一段舞會上男主角演奏吉他，唱著一首搖滾樂歌曲，讓我念念不忘至今．後來才知道這首歌叫做<Johnny B. Goode>．

#賞影音#歌曲#搖滾

2021/12/22

紐約台灣客的沙龍

[賞影音] <Back to the Future>的搖滾名曲

電影<Back to the Future>中有一段舞會上男主角演奏吉他，唱著一首搖滾樂歌曲，讓我念念不忘至今．後來才知道這首歌叫做<Johnny B. Goode>．

#賞影音#歌曲#搖滾

2021/12/22

Elaine的禪繞x療癒創作室

🎉Zentangle 20週年！Back to the BASIC！再次體驗美妙禪繞

Zentange 20週年是一個值得慶祝的日子。為什麼禪繞是個有架構又彷彿無規則的藝術？它究竟為何神奇？一起來一探究竟！近期也有系列課程可以讓大家深入瞭解和體驗禪繞喔！

#創作#體驗#週年

2024/01/25

Elaine的禪繞x療癒創作室

🎉Zentangle 20週年！Back to the BASIC！再次體驗美妙禪繞

#創作#體驗#週年

2024/01/25

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

見諸參與鄧伯宸口述，鄧湘庭於〈那個大霧的時代〉記述父親回憶，鄧伯宸因故遭受牽連，而案件核心的三人，在鄧伯宸記憶裡：「成立了成大共產黨，他們製作了五星徽章，印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單，以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿，另外還有手槍子彈十發。」

#釀電影#釀藝評#藝術評論

2026/05/07

釀電影，啜一口電影的美好。

往霧的更深處去──從《白色說書人》看轉型正義，與白色恐怖影視文本

#釀電影#釀藝評#藝術評論

2026/05/07

madefrom.hk

Back to the Future Part III(1990 film)探索《回到未來》中的時間旅行：馬蒂與博士的冒

《回到未來》系列電影以其獨特的時間旅行情節和扣人心弦的冒險故事深受觀眾喜愛。在這篇文章中，我們將深入探討1955年11月，馬蒂·麥佛萊（Marty McFly）如何目睹艾美特·“博士”·布朗（Dr. Emmett "Doc" Brown）駕駛德羅寧（DeLorean）時光機消失，以及隨後發生的驚險事

#回到未來#旅行#時光機

2025/04/15

madefrom.hk

Back to the Future Part III(1990 film)探索《回到未來》中的時間旅行：馬蒂與博士的冒

#回到未來#旅行#時光機

2025/04/15

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

當時間變少之後，看戲反而變得更加重要——這是在成為母親之後，我第一次誠實地面對這一件事：我沒有那麼多的晚上，可以任性地留給自己了。看戲不再只是「今天有沒有空」，而是牽動整個週末的結構，誰應該照顧孩子，我該在什麼時間回到家，隔天還有沒有精神帶小孩⋯⋯於是，我不得不學會一件以前並不擅長的事：挑選。

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

Amily的沙龍

北藝嚴選指南：從兒童藝術節到國際共製，聰明玩家的 75 折選戲術

#北藝嚴選指南#兒童藝術節#臺北表演藝術中心

2026/04/20

外語自學大丈夫！語感王私藏祕笈

「back to the grind」是要回去「磨(grind)」什麼？

放完了開心的連假，要回去單調的日常工作了，你會說「get back to work」，但這句英文也蠻普通而且有點單調。但如果你換句話說「要回去磨一磨」，感覺就不一樣了。英文這種講法到底怎麼來的？

#英文#翻譯#英文神邏輯

2021/03/02

外語自學大丈夫！語感王私藏祕笈

「back to the grind」是要回去「磨(grind)」什麼？

#英文#翻譯#英文神邏輯

2021/03/02

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：流動、跨域、變形的「生存之道」

當代名導基里爾．賽勒布倫尼科夫身兼電影、劇場與歌劇導演，其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後，他持續以創作回應專制體制的壓迫。《傳奇：帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析，解構賽勒布倫尼科夫如何利用影劇雙棲的特質，在荒謬世道中尋找藝術的「生存之道」。

#釀電影#釀評論#藝術評論

2026/02/28