B航線：資料從哪來？到變乾淨資料，AI 前處理全流程一次看

王一書

發佈於AI-900 認證輔導等個房間

2026/04/06 更新2026/04/06 發佈閱讀 5 分鐘

[場景]：不是食譜問題，是食材根本不能用

老王是一位國際知名大廚，他受邀到一家餐廳為百歲壽星準備盛宴。

他看著眼前的調味料與各式食材發愁了好一陣子，旁邊的助手不解地詢問，
老王回答：
我要的是花生醬，不是花生，
花椒不是胡椒，
我需要量杯，不是量匙，
鍋具的尺寸也不對。。。

看來，這場盛宴不僅在考驗老王的極限，也在賭這些料理是否能有好味道。

這種情形在其他場景也有可能出現：

在電商業績分析中，如果資料中混入了錯誤的訂單數字，模型可能會誤判營收成長，導致決策錯誤。
在醫療診斷中，如果資料中混入了錯誤的病歷資訊，模型可能做出錯誤的診斷建議。

👉 AI 也是一樣。

很多人以為 AI 專案失敗，是因為模型能力不夠強，
但實際上，大多數問題出在：

資料根本沒有準備好。

📊 一、資料從哪裡來？（Data Sources）

在 AI 專案中，資料通常不是「自然整齊的存在」，而是靠收集來的。

依來源可以簡單分成三種：

1️⃣ 內部資料（Internal Data）

企業自己擁有的資料，例如：

訂單紀錄
客戶資料（CRM）
使用者行為

👉 優點：最貼近業務
👉 風險：品質不一、可能缺漏

2️⃣ 外部資料（External Data）

從外部取得，例如：

開放資料（Open Data）
API（天氣、金融、地理資訊）
第三方數據平台

👉 優點：補足內部不足
👉 風險：來源不穩、格式混亂

3️⃣ 使用者生成資料（User-generated Data）

使用者產生的內容，例如：

評論
圖片
文字留言

👉 優點：資訊豐富、真實
👉 風險：噪音高、難整理

📌 這裡有一個很重要的觀念：

資料來源不同，品質與風險也完全不同。

🔍 二、為什麼 AI 這麼怕髒資料？（Data Quality）

AI 模型不像人類可以「自己判斷錯誤」，
它會把資料當作「真相教科書」來學習。

所以當資料有問題時，模型會被「帶壞」。

在考試與實務中，最常見的三種資料問題是：

1️⃣ 缺失值（Missing Values）

資料有空白或遺漏，例如：

年齡沒填
收入缺失

👉 影響：模型判斷不完整

2️⃣ 重複值（Duplicate Data）

同一筆資料出現多次，例如：

同一筆訂單被記錄兩次

👉 影響：重覆的資料可能被誤認 很重要（偏誤 Bias）

3️⃣ 離群值（Outliers）

異常極端的數值，例如：

一筆消費金額遠高於其他消費記錄
調查薪資時，有極少數人的薪資遠遠高於一般上班族薪資

👉 影響：模型被誤導，學到錯誤規則

👉 關鍵觀念：

AI 不怕資料少，但很怕資料錯。

🔥 三、資料也要「走流程」才能使用

很多使用者會直接「選模型」進行分析，
但實際上，AI 的工作流程應該是這樣：

📌 資料處理基本流程

1️⃣ 資料收集（Data Collection）

→ 從不同來源取得資料、匯整、檢視
→ 階段性目標：需確保資料來源的可靠性與完整性。

2️⃣ 資料清理（Data Cleaning）

→ 處理缺失值、重複值、離群值
→ 階段性目標：去除雜質、噪音與錯誤，讓資料更接近真實。

3️⃣ 資料轉換（Data Transformation）

→ 讓資料變成模型看得懂的形式
→ 階段性目標：讓資料符合模型要求的輸入格式，提高模型學習效率。

4️⃣ 資料分析（Data Analysis）

→ 讓模型學習並理解資料特性，準備分析
→ 階段性目標：讓模型理解資料的分布規則，有利於後續建模。

👉 關鍵概念：

模型只是最後一步，前面 80% 都在處理資料。

🧭 小結：影響模型的黑手是「資料」

很多人學 AI，會一直找更強的模型：

要不要用深度學習？
要不要用最新的模型？

👉 再次提醒：

資料品質，永遠比模型複雜度更重要。

▶ Next：我們繼續討論資料

👉 什麼是 「正規化」、「數值尺度」

也就是——
資料如何從「能用」，變成「好用」。

課程說明

🔖 以下內容為本系列的學習安排與閱讀指引。

為方便大家學習，我將全部章節進行劃分，詳見導覽文。
本系列文章區分為「免費文」與「收費文」，
目的在於清楚分開「初步認識」與「深入理解」兩個學習階段。收費內容將在基礎概念之上，整合重點圖表與說明，並融入個人教學與應考經驗，協助讀者建立可實際運用的理解框架。
各系列的收費文章皆以「考試情境」為主軸進行整理，
不僅補齊必要的模型原理與判斷邏輯，亦會搭配模擬題與選項解析，協助學習者從「看懂內容」，進一步轉化為「選得正確」。

含 AI 應用內容

書子的 AI 應用筆記AI-900 認證輔導書子的 AI 應用筆記AI 應用規劃師

留言

書子的 AI 應用筆記

3會員

21內容數

這是一個關於「理解」與「實作」的學習沙龍。我會分享程式與 AI 認證的學習脈絡，拆解考點背後的邏輯，幫助學習者在快速變動的科技環境中，建立真正可用的能力。這個沙龍適合：・正在準備程式或 AI 相關認證的人・剛開始學程式，卻覺得觀念零散的人・轉職中，希望打好基礎、不想只追流行名詞的人

書子的 AI 應用筆記的其他內容

2026/04/05

B航線： AI 的起點--資料 Data

本文探討資料在 AI 中的重要性，強調「資料是 AI 的起點」。資料錯誤可能導致決策偏差，並引出「Garbage In, Garbage Out」的觀念。機器學習中「資料品質」直接影響模型能力，必須重視資料處理，並為後續學習資料預處理做準備。

2026/04/05

B航線： AI 的起點--資料 Data

2026/03/03

B 航線：半監督式學習的折衷智慧

實務應用上，資料往往「多卻沒標籤」，或「有標籤卻太少」。半監督式學習（Semi-Supervised Learning）利用少量已標註資料，搭配大量未標註資料進行學習，兼顧成本與效果。它不像監督式學習那樣要求完整標籤，也不同於非監督式學習只做分群，而是介於兩者之間的實務策略。

2026/03/03

B 航線：半監督式學習的折衷智慧

2026/02/26

B 航線｜集成學習（Ensemble Learning）：三種「讓模型一起做決定」的方法

集成學習（Ensemble Learning）可透過結合多個弱學習器，有效提升預測穩定度與準確率。本文整理三大核心方法：Bagging、Boosting 與 Stacking，同時比較隨機森林、AdaBoost、XGBoost 等代表演算法。幫助讀者建立清晰的判斷邏輯，並依情境選擇合適策略。

2026/02/26

B 航線｜集成學習（Ensemble Learning）：三種「讓模型一起做決定」的方法

看更多

你可能也想看

Vicky Mommy 玲玲

【AI 應用規劃師 QA】免費講座公開！全職媽媽運用 ChatGPT 自學 AI，每天 1 小時，30 天衝刺考取證照。

自從我開始在社群分享「全職媽媽用 ChatGPT 自學，30 天考上 AI 應用規劃師」的歷程，開始陸陸續續收到了大家的訊息：「AI 應用規劃師是什麼？」、「不會寫程式也能考嗎？」、「每天只有零碎時間要怎麼準備？」、「考上證照真的有用嗎？」等等，好多大家想知道的問題。

#AI證照#AI應用#AI考試

2025/06/28

Vicky Mommy 玲玲

【AI 應用規劃師 QA】免費講座公開！全職媽媽運用 ChatGPT 自學 AI，每天 1 小時，30 天衝刺考取證照。

#AI證照#AI應用#AI考試

2025/06/28

Vicky Mommy 玲玲

接受經濟部 iPAS 採訪，AI 學習為我解鎖人生成就，也讓未來有了更多可能。

我是 Vicky，小漢堡和小籠包的媽咪。我已經當了十幾年的全職媽媽，也經營 YouTube 頻道【Vicky Mommy 玲玲】，陪伴媽媽們一起成長。疫情期間，因為孩子需要線上上課，我才買了人生第一台電腦。身為媽媽，Me Time 總是零碎，我利用每天孩子中午下課前，用 ChatGPT 在家自學

#vickymommy#AI應用規劃師#iPASAI應用規劃師

2025/09/19

Vicky Mommy 玲玲

接受經濟部 iPAS 採訪，AI 學習為我解鎖人生成就，也讓未來有了更多可能。

#vickymommy#AI應用規劃師#iPASAI應用規劃師

2025/09/19

林易璁工作力教練沙龍

AI證照怎麼選？從新手到進階完整指南

目前在網路上，比較常見的AI證照如下： ➤iPAS AI應用規劃師能力鑑定認證 ➤資訊工業策進會生成式AI能力 ➤ITS Artificial Intelligence ➤微軟Azure AI-900 ➤台灣人工智慧學校AI素養級認證 ➤Generative AI Overview for PMs

2025/05/26

2025/05/26

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11