
[場景]
小瑜是銀行負責核貸的人員,她緊張地盯著手裡的資料,害怕一不小心看錯數據,將導致貸款核准結果偏差,造成銀行的損失。
偏偏手中的資料有好多形式:表格、證件、說明文件...,她一遍又一遍的檢查著。
例如:
。 數字的部分(18 變成180)
。 資料標記不一致(「男 / male / M」混在一起)
。 資料缺失的部分亂補(有些填 X,有些填 0)

以上情形,經常出現在各行各業場景中,不僅是人會看錯,電腦系統也會因為資料內容的混亂而產生錯誤。
人工智慧也是一樣,再強的模型,遇到這種「亂七八糟」的資料,都只是在「放大錯誤」。
套句老話:神仙也難救。
這就是 AI 領域最經典的一句話:
Garbage In, Garbage Out(輸入垃圾,輸出垃圾)
讓我們先弄清楚:
📊 一、什麼是資料?(Data)
在 AI 與機器學習中,資料(Data)不是單純的數字,它可能是文字、圖片、影片等等,而且這些資料的格式也可能不同。
根據 IPAS考綱,資料處理是 AI 的核心基礎之一。
一般來說,在資料科學、資料庫或資訊領域中,我們會將「資料」(Data)依照 結構化程度(或稱型態) 分成三大類:
1. 結構化資料 (Structured Data)
- 特徵:資料有明確的結構、固定的格式,通常以表格(Table)或資料庫形式存在。
- 例子:
- Excel 表格
- SQL 資料庫中的資料(如客戶資料表、訂單表)
- 數字、日期、類別欄位(性別、年齡、金額等)
- 優點:容易查詢、分析、儲存,適合用傳統資料庫管理。
- 處理工具:SQL、Excel、Python 的 Pandas 等。
- 處理難度:最低。
2. 半結構化資料 (Semi-structured Data)
- 特徵:有一定的結構,但不像結構化資料那麼嚴格,沒有固定表格形式,通常使用「標籤」或「鍵值」來組織資料。
- 例子:
- JSON 格式的資料
- XML 檔案
- HTML 網頁
- NoSQL 資料庫(如 MongoDB)
- 日誌檔案(Log)
- 優點:彈性較高,能夠儲存較複雜的資料。
- 處理工具:Python 的 JSON 模組、NoSQL 資料庫等。
- 處理難度:中等。
3. 非結構化資料 (Unstructured Data)
- 特徵:完全沒有固定結構,資料形式自由多變,很難直接用表格表示。
- 例子:
- 文字(文章、社群貼文、email)
- 圖片、影片、音訊
- PDF 文件
- 感測器產生的原始資料
- 優點:最接近真實世界的資料形式,資訊含量最高。
- 處理工具:需要使用 AI、自然語言處理(NLP)、電腦視覺等技術來分析。
- 處理難度:最高。
🧠二、結構化資料(機器學習最常使用)
機器學習將結構化的資料拆成兩個重要角色:
1️⃣ 特徵(Features)
👉 就像記錄、觀察到的東西,例如身高、體重、年齡等等。也是模型用來 「判斷」 的資訊依據。
例如:
- 年齡
- 收入
- 點擊次數
- 健康檢查數據
2️⃣ 標籤(Labels)
👉 就像問題的答案,例如「是男/女」、「是健康/不健康」等等。也是我們希望模型學會的判斷結果。
例如:
- 信用的好壞(Yes / No)
- 垃圾郵件 / 正常郵件
📌 簡單理解:
特徵(Features)→ 輸入(要分析的數據,資料表的欄位內容)
標籤(Labels)→ 輸出(要獲得的答案,預測的結果)
⚠️ 三、資料品質,決定模型的能力上限
資料有三個核心問題:
1️⃣ 錯誤(Incorrect Data)
- 資料內容(輸入)錯誤
- 答案標示(標籤)錯誤
👉 結果:模型 → 學錯
2️⃣ 不完整(Missing Data)
- 缺失值(Missing Values):包含空白、用符號代表空缺
👉 結果:模型學不到規則
3️⃣ 不一致(Inconsistent Data)
- 單位不同(mm / cm / m)
- 格式不同(2024/01 vs 01-2024)
👉 結果:模型難以理解
📌 關鍵觀念:
模型能力的上限 = 資料品質的上限
這也是為什麼「資料處理與分析流程」會被列為考試重點
🧭 結論:資料不是前置作業,而是「核心能力」
很多人把資料當成:
👉「建模之前的準備工作」
但其實在實務與考試中:
👉 資料本身,就是 AI 的核心能力之一
▶ Next:我們該來談談——資料怎麼處理?
👉 資料預處理(Data Preprocessing) 到底在做什麼?
課程說明
🔖 以下內容為本系列的學習安排與閱讀指引。
- 為方便大家學習,我將全部章節進行劃分,詳見導覽文。
- 本系列文章區分為「免費文」與「收費文」,
目的在於清楚分開「初步認識」與「深入理解」兩個學習階段。 收費內容將在基礎概念之上,整合重點圖表與說明,並融入個人教學與應考經驗, 協助讀者建立可實際運用的理解框架。 - 各系列的收費文章皆以「考試情境」為主軸進行整理,
不僅補齊必要的模型原理與判斷邏輯, 亦會搭配模擬題與選項解析, 協助學習者從「看懂內容」,進一步轉化為「選得正確」。


























