學習筆記 | 機器學習這回事,怎麼好像人生學習?!

更新 發佈閱讀 4 分鐘
超參數調整就跟人生腳步調整一樣,漫漫長路沒有人能告訴你正確答案…
嗨~我是雪莉,歡迎一起踏上探索旅程。

最近在如火如荼地進行團隊專題,我們的主題是透過機器學習模型,讓使用者輸入產品與客戶特徵,來預測該產品在特定客群中是否可能被推薦。第一次接觸這個領域,我抱持著實驗精神,一邊做一邊學!總算也慢慢了解機器學習是怎麼回事。

專題的發想其實來及生活。日常中充滿了大大小小的消費行為,我們希望透過機器學習來分析與預測消費者心理。我們的資料集取自 Kaggle,總共有一百多萬筆,每筆資料都記錄了消費者的特徵、評論與產品屬性。拿到資料後,第一步就是了解各欄位的意義與型態,接著刪除不必要的欄位、填補空值、進行編碼與維度轉換。完成資料前處理後,就進入了模型訓練的階段。

首先模型的選擇。這次我們鎖定了三個選項:

  • 隨機森林 (Random Forest):核心是集成學習(Ensemble Learning),透過建立多棵決策樹並取其預測的平均值(回歸)或多數決(分類)來得到最終結果。能降低過擬合(Overfitting)的風險,因為每棵樹都是獨立生成的,因此整體模型表現非常穩定,且對資料的雜訊不那麼敏感。
  • XGBoost:屬於梯度提升機(Gradient Boosting Machine)的一種,透過迭代方式讓每一棵新樹修正前一棵樹的誤差,逐步擬合殘差以減少錯誤。同時加入正則化技術,能讓模型更平滑,並提高對抗雜訊與防止過度擬合的能力。
  • LightGBM:和 XGBoost 一樣是梯度提升機,但在計算效率上有顯著的優勢。透過獨特的基於直方圖(Histogram-based)演算法和葉子生長策略(Leaf-wise Tree Growth),大幅減少了訓練時間和記憶體消耗,特別適合處理龐大資料集。

接著是指標的設定。由於我們要預測的標籤正負比為6.5:3.5,屬於不平衡資料集,如果僅用 accuracy 來評估,很可能會高估模型表現。因此選擇了 balanced accuracy、F1-macro 以及 AUC-ROC 這幾個指標,來理解模型整體的效能。

  • balanced accuracy:能讓正負樣本的準確度都有機會被公平呈現,避免少數類別被忽略,著重在各類別預測準確率的平衡。
  • F1-macro:則適合處理分類數據不均衡的情境,著重在綜合考量各類別的精確率與召回率,避免模型只專注於預測樣本數最多的類別。
  • AUC-ROC:提供了模型在不同閾值下的整體表現,著重在整體模型的穩定性和區分能力。

再來再來...就進入了最關鍵也最耗時的階段:調整參數!調整參數需要反覆測試與比較。例如,max_depth 決定了模型的複雜度,learning_rate 會影響學習的速度與效果,而各個參數之間也可能互相影響。嘗試不同組合後,只有少部份時間會開心地發現分數大幅提升,大多數時候是原地不動,甚至是退步。這個過程真的非常考驗耐心啊~~

沒有唯一正解,更多時候是不斷探索去找出能進步一點點的組合。

其實這句話不僅適用於機器學習,放在人生裡似乎也說得通呢!(淚)

詳細的調參過程,我想留到下一篇再和大家分享。專案進行到這裡,我更理解了整個資料流的流程,也覺得生活探索就像在執行一個專案:不斷嘗試、修正,再根據結果調整方向。有時能順利往前,有時則需要回頭重來。

如果你也剛好走在轉變的路上,別忘了多給自己一些耐心和信心。期待下次和你分享,這段探索之旅的新風景~

留言
avatar-img
Sherry Journey | 雪莉的探索旅程
1會員
4內容數
這裡記錄我的學習筆記,以生活上發現的大小事
2025/08/24
雖然知道一定有這一天,但沒想到真的這麼快發生(淚 嗨~我是雪莉,學習模式先暫停一下,來聊聊生活小事。 如果說到我的個人興趣,我一定會回答看棒球!時常去球場報到的我,是中華職棒富邦悍將的球迷,以下直接簡稱邦迷。身為邦迷的我,就在8月平淡無奇的某一天,突然看到一則消息:「Thank you ,富藍戈。
2025/08/24
雖然知道一定有這一天,但沒想到真的這麼快發生(淚 嗨~我是雪莉,學習模式先暫停一下,來聊聊生活小事。 如果說到我的個人興趣,我一定會回答看棒球!時常去球場報到的我,是中華職棒富邦悍將的球迷,以下直接簡稱邦迷。身為邦迷的我,就在8月平淡無奇的某一天,突然看到一則消息:「Thank you ,富藍戈。
2025/08/21
就這樣,重返了學生生活!嗨~我是雪莉,歡迎一起踏上探索旅程。 六月中旬正式開始了課程的研修之旅。第一天還沉浸在與新同學愉快地打招呼、互相認識的愉快氛圍中。然而隔天,面對的就是艱深的Python,身為coding小白的我,不禁擔心自己能否跟上課程節奏。幸好老師的教學風格生動有趣,不同於傳統先講理論的
2025/08/21
就這樣,重返了學生生活!嗨~我是雪莉,歡迎一起踏上探索旅程。 六月中旬正式開始了課程的研修之旅。第一天還沉浸在與新同學愉快地打招呼、互相認識的愉快氛圍中。然而隔天,面對的就是艱深的Python,身為coding小白的我,不禁擔心自己能否跟上課程節奏。幸好老師的教學風格生動有趣,不同於傳統先講理論的
2025/08/17
離開熟悉了 7 年的環境,接下來要做什麼?嗨~我是雪莉,歡迎一起踏上探索旅程。 2025/03,我離開了出社會後投入的第一間公司。 剛畢業的我,沒想過會在同一家公司待上 7 年;而現在的我,也沒想過真的會離開。 人生嘛~總是充滿各種出奇不意(笑)。 在工作按下暫停鍵後,我加入了職訓局的「AI
2025/08/17
離開熟悉了 7 年的環境,接下來要做什麼?嗨~我是雪莉,歡迎一起踏上探索旅程。 2025/03,我離開了出社會後投入的第一間公司。 剛畢業的我,沒想過會在同一家公司待上 7 年;而現在的我,也沒想過真的會離開。 人生嘛~總是充滿各種出奇不意(笑)。 在工作按下暫停鍵後,我加入了職訓局的「AI
看更多
你可能也想看
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
前言 讀了許多理論,是時候實際動手做做看了,以下是我的模型訓練初體驗,有點糟就是了XD。 正文 def conv(filters, kernel_size, strides=1): return Conv2D(filters, kernel_size,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News