B航線:資料從哪來?到變乾淨資料,AI 前處理全流程一次看

王一書-avatar-img
發佈於AI-900 認證輔導 個房間
更新 發佈閱讀 5 分鐘
vocus|新世代的創作平台

[場景]:不是食譜問題,是食材根本不能用

老王是一位國際知名大廚,他受邀到一家餐廳為百歲壽星準備盛宴。

他看著眼前的調味料與各式食材發愁了好一陣子,旁邊的助手不解地詢問,
老王回答:
我要的是花生醬,不是花生,
花椒不是胡椒,
我需要量杯,不是量匙,
鍋具的尺寸也不對。。。

看來,這場盛宴不僅在考驗老王的極限,也在賭這些料理是否能有好味道。

vocus|新世代的創作平台

這種情形在其他場景也有可能出現:

  • 在電商業績分析中,如果資料中混入了錯誤的訂單數字,模型可能會誤判營收成長,導致決策錯誤。
  • 在醫療診斷中,如果資料中混入了錯誤的病歷資訊,模型可能做出錯誤的診斷建議。

👉 AI 也是一樣。

很多人以為 AI 專案失敗,是因為模型能力不夠強,
但實際上,大多數問題出在:

資料根本沒有準備好。


📊 一、資料從哪裡來?(Data Sources)

在 AI 專案中,資料通常不是「自然整齊的存在」,而是靠 收集 來的。

依來源可以簡單分成三種:

1️⃣ 內部資料(Internal Data)

企業自己擁有的資料,例如:

  • 訂單紀錄
  • 客戶資料(CRM)
  • 使用者行為

👉 優點:最貼近業務
👉 風險:品質不一、可能缺漏


2️⃣ 外部資料(External Data)

從外部取得,例如:

  • 開放資料(Open Data)
  • API(天氣、金融、地理資訊)
  • 第三方數據平台

👉 優點:補足內部不足
👉 風險:來源不穩、格式混亂


3️⃣ 使用者生成資料(User-generated Data)

使用者產生的內容,例如:

  • 評論
  • 圖片
  • 文字留言

👉 優點:資訊豐富、真實
👉 風險:噪音高、難整理


📌 這裡有一個很重要的觀念:

資料來源不同,品質與風險也完全不同。


🔍 二、為什麼 AI 這麼怕髒資料?(Data Quality)

AI 模型不像人類可以「自己判斷錯誤」,
它會把資料當作「真相教科書」來學習。

所以當資料有問題時,模型會被「帶壞」

在考試與實務中,最常見的三種資料問題是:

1️⃣ 缺失值(Missing Values)

資料有空白或遺漏,例如:

  • 年齡沒填
  • 收入缺失

👉 影響:模型判斷不完整


2️⃣ 重複值(Duplicate Data)

同一筆資料出現多次,例如:

  • 同一筆訂單被記錄兩次

👉 影響:重覆的資料可能被誤認 很重要(偏誤 Bias)


3️⃣ 離群值(Outliers)

異常極端的數值,例如:

  • 一筆消費金額遠高於其他消費記錄
  • 調查薪資時,有極少數人的薪資遠遠高於一般上班族薪資

👉 影響:模型被誤導,學到錯誤規則


👉 關鍵觀念:

AI 不怕資料少,但很怕資料錯。


🔥 三、資料也要「走流程」才能使用

很多使用者會直接「選模型」進行分析,
但實際上,AI 的工作流程應該是這樣:

📌 資料處理基本流程

1️⃣ 資料收集(Data Collection)

→ 從不同來源取得資料、匯整、檢視
→ 階段性目標:需確保資料來源的可靠性與完整性。

2️⃣ 資料清理(Data Cleaning)

→ 處理缺失值、重複值、離群值
→ 階段性目標:去除雜質、噪音與錯誤,讓資料更接近真實。

3️⃣ 資料轉換(Data Transformation)

→ 讓資料變成模型看得懂的形式
→ 階段性目標:讓資料符合模型要求的輸入格式,提高模型學習效率。

4️⃣ 資料分析(Data Analysis)

→ 讓模型學習並理解資料特性,準備分析
→ 階段性目標:讓模型理解資料的分布規則,有利於後續建模。


👉 關鍵概念:

模型只是最後一步,前面 80% 都在處理資料。


🧭 小結:影響模型的黑手是「資料」

很多人學 AI,會一直找更強的模型:

  • 要不要用深度學習?
  • 要不要用最新的模型?

👉 再次提醒:

資料品質,永遠比模型複雜度更重要。


▶ Next:我們繼續討論資料

👉 什麼是 「正規化」、「數值尺度」

也就是——
資料如何從「能用」,變成「好用」。


課程說明

🔖 以下內容為本系列的學習安排與閱讀指引。

  1. 為方便大家學習,我將全部章節進行劃分,詳見導覽文
  2. 本系列文章區分為「免費文」與「收費文」,
    目的在於清楚分開「初步認識」與「深入理解」兩個學習階段。 收費內容將在基礎概念之上,整合重點圖表與說明,並融入個人教學與應考經驗, 協助讀者建立可實際運用的理解框架。
  3. 各系列的收費文章皆以「考試情境」為主軸進行整理,
    不僅補齊必要的模型原理與判斷邏輯, 亦會搭配模擬題與選項解析, 協助學習者從「看懂內容」,進一步轉化為「選得正確」。
vocus|新世代的創作平台


留言
avatar-img
書子 的 AI 應用筆記
3會員
21內容數
這是一個關於「理解」與「實作」的學習沙龍。 我會分享程式與 AI 認證的學習脈絡,拆解考點背後的邏輯, 幫助學習者在快速變動的科技環境中,建立真正可用的能力。 這個沙龍適合: ・正在準備程式或 AI 相關認證的人 ・剛開始學程式,卻覺得觀念零散的人 ・轉職中,希望打好基礎、不想只追流行名詞的人
2026/04/05
本文探討資料在 AI 中的重要性,強調「資料是 AI 的起點」。資料錯誤可能導致決策偏差,並引出「Garbage In, Garbage Out」的觀念。機器學習中「資料品質」直接影響模型能力,必須重視資料處理,並為後續學習資料預處理做準備。
Thumbnail
2026/04/05
本文探討資料在 AI 中的重要性,強調「資料是 AI 的起點」。資料錯誤可能導致決策偏差,並引出「Garbage In, Garbage Out」的觀念。機器學習中「資料品質」直接影響模型能力,必須重視資料處理,並為後續學習資料預處理做準備。
Thumbnail
2026/03/03
實務應用上,資料往往「多卻沒標籤」,或「有標籤卻太少」。半監督式學習(Semi-Supervised Learning)利用少量已標註資料,搭配大量未標註資料進行學習,兼顧成本與效果。它不像監督式學習那樣要求完整標籤,也不同於非監督式學習只做分群,而是介於兩者之間的實務策略。
Thumbnail
2026/03/03
實務應用上,資料往往「多卻沒標籤」,或「有標籤卻太少」。半監督式學習(Semi-Supervised Learning)利用少量已標註資料,搭配大量未標註資料進行學習,兼顧成本與效果。它不像監督式學習那樣要求完整標籤,也不同於非監督式學習只做分群,而是介於兩者之間的實務策略。
Thumbnail
2026/02/26
集成學習(Ensemble Learning)可透過結合多個弱學習器,有效提升預測穩定度與準確率。本文整理三大核心方法:Bagging、Boosting 與 Stacking,同時比較隨機森林、AdaBoost、XGBoost 等代表演算法。幫助讀者建立清晰的判斷邏輯,並依情境選擇合適策略。
Thumbnail
2026/02/26
集成學習(Ensemble Learning)可透過結合多個弱學習器,有效提升預測穩定度與準確率。本文整理三大核心方法:Bagging、Boosting 與 Stacking,同時比較隨機森林、AdaBoost、XGBoost 等代表演算法。幫助讀者建立清晰的判斷邏輯,並依情境選擇合適策略。
Thumbnail
看更多
你可能也想看
Thumbnail
自從我開始在社群分享「全職媽媽用 ChatGPT 自學,30 天考上 AI 應用規劃師」的歷程,開始陸陸續續收到了大家的訊息:「AI 應用規劃師是什麼?」、「不會寫程式也能考嗎?」、「每天只有零碎時間要怎麼準備?」、「考上證照真的有用嗎?」等等,好多大家想知道的問題。
Thumbnail
自從我開始在社群分享「全職媽媽用 ChatGPT 自學,30 天考上 AI 應用規劃師」的歷程,開始陸陸續續收到了大家的訊息:「AI 應用規劃師是什麼?」、「不會寫程式也能考嗎?」、「每天只有零碎時間要怎麼準備?」、「考上證照真的有用嗎?」等等,好多大家想知道的問題。
Thumbnail
我是 Vicky,小漢堡和小籠包的媽咪。我已經當了十幾年的全職媽媽,也經營 YouTube 頻道【Vicky Mommy 玲玲】,陪伴媽媽們一起成長。 疫情期間,因為孩子需要線上上課,我才買了人生第一台電腦。身為媽媽,Me Time 總是零碎,我利用每天孩子中午下課前,用 ChatGPT 在家自學
Thumbnail
我是 Vicky,小漢堡和小籠包的媽咪。我已經當了十幾年的全職媽媽,也經營 YouTube 頻道【Vicky Mommy 玲玲】,陪伴媽媽們一起成長。 疫情期間,因為孩子需要線上上課,我才買了人生第一台電腦。身為媽媽,Me Time 總是零碎,我利用每天孩子中午下課前,用 ChatGPT 在家自學
Thumbnail
目前在網路上,比較常見的AI證照如下: ➤iPAS AI應用規劃師能力鑑定認證 ➤資訊工業策進會生成式AI能力 ➤ITS Artificial Intelligence ➤微軟Azure AI-900 ➤台灣人工智慧學校AI素養級認證 ➤Generative AI Overview for PMs
Thumbnail
目前在網路上,比較常見的AI證照如下: ➤iPAS AI應用規劃師能力鑑定認證 ➤資訊工業策進會生成式AI能力 ➤ITS Artificial Intelligence ➤微軟Azure AI-900 ➤台灣人工智慧學校AI素養級認證 ➤Generative AI Overview for PMs
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
L111 人工智慧概念 AI 的定義是什麼? A) 機器完全自主決策 B) 模擬人類智慧進行學習與決策 C) 完全基於硬件運算能力 D) 僅限於科學研究 正解:B AI 治理的主要目的是? A) 減少硬件成本 B) 確保透明性與隱私 C) 增強 AI 的市場價值 D) 僅僅是增加數據存儲 正解
Thumbnail
L111 人工智慧概念 AI 的定義是什麼? A) 機器完全自主決策 B) 模擬人類智慧進行學習與決策 C) 完全基於硬件運算能力 D) 僅限於科學研究 正解:B AI 治理的主要目的是? A) 減少硬件成本 B) 確保透明性與隱私 C) 增強 AI 的市場價值 D) 僅僅是增加數據存儲 正解
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
L121 No Code / Low Code 概念(共10題) No Code 平台最適合哪一類使用者? (A) 專業演算法開發者 (B) 沒有程式設計背景的使用者 (C) 資安分析師 (D) 網路工程師 答案:(B) Low Code 平台最大的特色是? (A) 完全不能
Thumbnail
L121 No Code / Low Code 概念(共10題) No Code 平台最適合哪一類使用者? (A) 專業演算法開發者 (B) 沒有程式設計背景的使用者 (C) 資安分析師 (D) 網路工程師 答案:(B) Low Code 平台最大的特色是? (A) 完全不能
Thumbnail
早上打開mail看到一封信,應該是經濟部調查考試的意見吧,所以我也就撰寫了一些想法,也提供給有興趣的同好參考。 有些人問我:「考過 iPAS AI 應用規劃師,對你來說最大的收穫是什麼?」 老實說,一開始我也以為答案會是—履歷更好看、教課更有說服力、專業被認可。 但真正走過這一段準備、懷疑、撐住
Thumbnail
早上打開mail看到一封信,應該是經濟部調查考試的意見吧,所以我也就撰寫了一些想法,也提供給有興趣的同好參考。 有些人問我:「考過 iPAS AI 應用規劃師,對你來說最大的收穫是什麼?」 老實說,一開始我也以為答案會是—履歷更好看、教課更有說服力、專業被認可。 但真正走過這一段準備、懷疑、撐住
Thumbnail
2026 年經濟部 iPAS「AI 應用規劃師」初級/中級考照,是培養 AI 規劃、導入與應用能力的關鍵證照,協助非工程背景也能掌握 AI 落地實務,提前布局未來核心競爭力。
Thumbnail
2026 年經濟部 iPAS「AI 應用規劃師」初級/中級考照,是培養 AI 規劃、導入與應用能力的關鍵證照,協助非工程背景也能掌握 AI 落地實務,提前布局未來核心競爭力。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文提供關於三個人工智慧相關證照的建議,包含ISO/IEC 42001人工智慧管理系統主導稽核員、經濟部iPAS AI應用規劃師和Microsoft Azure AI Fundamentals。針對每個證照,提供其內容概要、適合對象、考試資訊和學習資源等。
Thumbnail
本文提供關於三個人工智慧相關證照的建議,包含ISO/IEC 42001人工智慧管理系統主導稽核員、經濟部iPAS AI應用規劃師和Microsoft Azure AI Fundamentals。針對每個證照,提供其內容概要、適合對象、考試資訊和學習資源等。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News