
[場景]:不是食譜問題,是食材根本不能用
老王是一位國際知名大廚,他受邀到一家餐廳為百歲壽星準備盛宴。
他看著眼前的調味料與各式食材發愁了好一陣子,旁邊的助手不解地詢問,
老王回答:
我要的是花生醬,不是花生,
花椒不是胡椒,
我需要量杯,不是量匙,
鍋具的尺寸也不對。。。
看來,這場盛宴不僅在考驗老王的極限,也在賭這些料理是否能有好味道。

這種情形在其他場景也有可能出現:
- 在電商業績分析中,如果資料中混入了錯誤的訂單數字,模型可能會誤判營收成長,導致決策錯誤。
- 在醫療診斷中,如果資料中混入了錯誤的病歷資訊,模型可能做出錯誤的診斷建議。
👉 AI 也是一樣。
很多人以為 AI 專案失敗,是因為模型能力不夠強,
但實際上,大多數問題出在:
資料根本沒有準備好。
📊 一、資料從哪裡來?(Data Sources)
在 AI 專案中,資料通常不是「自然整齊的存在」,而是靠 收集 來的。
依來源可以簡單分成三種:
1️⃣ 內部資料(Internal Data)
企業自己擁有的資料,例如:
- 訂單紀錄
- 客戶資料(CRM)
- 使用者行為
👉 優點:最貼近業務
👉 風險:品質不一、可能缺漏
2️⃣ 外部資料(External Data)
從外部取得,例如:
- 開放資料(Open Data)
- API(天氣、金融、地理資訊)
- 第三方數據平台
👉 優點:補足內部不足
👉 風險:來源不穩、格式混亂
3️⃣ 使用者生成資料(User-generated Data)
使用者產生的內容,例如:
- 評論
- 圖片
- 文字留言
👉 優點:資訊豐富、真實
👉 風險:噪音高、難整理
📌 這裡有一個很重要的觀念:
資料來源不同,品質與風險也完全不同。
🔍 二、為什麼 AI 這麼怕髒資料?(Data Quality)
AI 模型不像人類可以「自己判斷錯誤」,
它會把資料當作「真相教科書」來學習。
所以當資料有問題時,模型會被「帶壞」。
在考試與實務中,最常見的三種資料問題是:
1️⃣ 缺失值(Missing Values)
資料有空白或遺漏,例如:
- 年齡沒填
- 收入缺失
👉 影響:模型判斷不完整
2️⃣ 重複值(Duplicate Data)
同一筆資料出現多次,例如:
- 同一筆訂單被記錄兩次
👉 影響:重覆的資料可能被誤認 很重要(偏誤 Bias)
3️⃣ 離群值(Outliers)
異常極端的數值,例如:
- 一筆消費金額遠高於其他消費記錄
- 調查薪資時,有極少數人的薪資遠遠高於一般上班族薪資
👉 影響:模型被誤導,學到錯誤規則
👉 關鍵觀念:
AI 不怕資料少,但很怕資料錯。
🔥 三、資料也要「走流程」才能使用
很多使用者會直接「選模型」進行分析,
但實際上,AI 的工作流程應該是這樣:
📌 資料處理基本流程
1️⃣ 資料收集(Data Collection)
→ 從不同來源取得資料、匯整、檢視
→ 階段性目標:需確保資料來源的可靠性與完整性。
2️⃣ 資料清理(Data Cleaning)
→ 處理缺失值、重複值、離群值
→ 階段性目標:去除雜質、噪音與錯誤,讓資料更接近真實。
3️⃣ 資料轉換(Data Transformation)
→ 讓資料變成模型看得懂的形式
→ 階段性目標:讓資料符合模型要求的輸入格式,提高模型學習效率。
4️⃣ 資料分析(Data Analysis)
→ 讓模型學習並理解資料特性,準備分析
→ 階段性目標:讓模型理解資料的分布規則,有利於後續建模。
👉 關鍵概念:
模型只是最後一步,前面 80% 都在處理資料。
🧭 小結:影響模型的黑手是「資料」
很多人學 AI,會一直找更強的模型:
- 要不要用深度學習?
- 要不要用最新的模型?
👉 再次提醒:
資料品質,永遠比模型複雜度更重要。
▶ Next:我們繼續討論資料
👉 什麼是 「正規化」、「數值尺度」
也就是——
資料如何從「能用」,變成「好用」。
課程說明
🔖 以下內容為本系列的學習安排與閱讀指引。
- 為方便大家學習,我將全部章節進行劃分,詳見導覽文。
- 本系列文章區分為「免費文」與「收費文」,
目的在於清楚分開「初步認識」與「深入理解」兩個學習階段。 收費內容將在基礎概念之上,整合重點圖表與說明,並融入個人教學與應考經驗, 協助讀者建立可實際運用的理解框架。 - 各系列的收費文章皆以「考試情境」為主軸進行整理,
不僅補齊必要的模型原理與判斷邏輯, 亦會搭配模擬題與選項解析, 協助學習者從「看懂內容」,進一步轉化為「選得正確」。

























