B航線: AI 的起點--資料 Data

王一書-avatar-img
發佈於AI-900 認證輔導 個房間
更新 發佈閱讀 6 分鐘
vocus|新世代的創作平台

[場景]

小瑜是銀行負責核貸的人員,她緊張地盯著手裡的資料,害怕一不小心看錯數據,將導致貸款核准結果偏差,造成銀行的損失。

偏偏手中的資料有好多形式:表格、證件、說明文件...,她一遍又一遍的檢查著。

例如:
。 數字的部分(18 變成180)
。 資料標記不一致(「男 / male / M」混在一起)
。 資料缺失的部分亂補(有些填 X,有些填 0)

vocus|新世代的創作平台

以上情形,經常出現在各行各業場景中,不僅是人會看錯,電腦系統也會因為資料內容的混亂而產生錯誤。

人工智慧也是一樣,再強的模型,遇到這種「亂七八糟」的資料,都只是在「放大錯誤」

套句老話:神仙也難救。

這就是 AI 領域最經典的一句話:

Garbage In, Garbage Out(輸入垃圾,輸出垃圾)


讓我們先弄清楚:

📊 一、什麼是資料?(Data)

在 AI 與機器學習中,資料(Data)不是單純的數字,它可能是文字、圖片、影片等等,而且這些資料的格式也可能不同。

根據 IPAS考綱,資料處理是 AI 的核心基礎之一。

一般來說,在資料科學、資料庫或資訊領域中,我們會將「資料」(Data)依照 結構化程度(或稱型態) 分成三大類:

1. 結構化資料 (Structured Data)

  • 特徵:資料有明確的結構、固定的格式,通常以表格(Table)或資料庫形式存在。
  • 例子
    • Excel 表格
    • SQL 資料庫中的資料(如客戶資料表、訂單表)
    • 數字、日期、類別欄位(性別、年齡、金額等)
  • 優點:容易查詢、分析、儲存,適合用傳統資料庫管理。
  • 處理工具:SQL、Excel、Python 的 Pandas 等。
  • 處理難度:最低。

2. 半結構化資料 (Semi-structured Data)

  • 特徵:有一定的結構,但不像結構化資料那麼嚴格,沒有固定表格形式,通常使用「標籤」或「鍵值」來組織資料。
  • 例子
    • JSON 格式的資料
    • XML 檔案
    • HTML 網頁
    • NoSQL 資料庫(如 MongoDB)
    • 日誌檔案(Log)
  • 優點:彈性較高,能夠儲存較複雜的資料。
  • 處理工具:Python 的 JSON 模組、NoSQL 資料庫等。
  • 處理難度:中等。

3. 非結構化資料 (Unstructured Data)

  • 特徵:完全沒有固定結構,資料形式自由多變,很難直接用表格表示。
  • 例子
    • 文字(文章、社群貼文、email)
    • 圖片、影片、音訊
    • PDF 文件
    • 感測器產生的原始資料
  • 優點:最接近真實世界的資料形式,資訊含量最高。
  • 處理工具:需要使用 AI、自然語言處理(NLP)、電腦視覺等技術來分析。
  • 處理難度:最高。

🧠二、結構化資料(機器學習最常使用)

機器學習將結構化的資料拆成兩個重要角色:

1️⃣ 特徵(Features)

👉 就像記錄、觀察到的東西,例如身高、體重、年齡等等。也是模型用來 「判斷」 的資訊依據。

例如:

  • 年齡
  • 收入
  • 點擊次數
  • 健康檢查數據

2️⃣ 標籤(Labels)

👉 就像問題的答案,例如「是男/女」、「是健康/不健康」等等。也是我們希望模型學會的判斷結果。

例如:

  • 信用的好壞(Yes / No)
  • 垃圾郵件 / 正常郵件

📌 簡單理解:

特徵(Features)→ 輸入(要分析的數據,資料表的欄位內容)
標籤(Labels)→ 輸出(要獲得的答案,預測的結果)

⚠️ 三、資料品質,決定模型的能力上限

資料有三個核心問題:

1️⃣ 錯誤(Incorrect Data)

  • 資料內容(輸入)錯誤
  • 答案標示(標籤)錯誤

👉 結果:模型 → 學錯


2️⃣ 不完整(Missing Data)

  • 缺失值(Missing Values):包含空白、用符號代表空缺

👉 結果:模型學不到規則


3️⃣ 不一致(Inconsistent Data)

  • 單位不同(mm / cm / m)
  • 格式不同(2024/01 vs 01-2024)

👉 結果:模型難以理解


📌 關鍵觀念:

模型能力的上限 = 資料品質的上限

這也是為什麼「資料處理與分析流程」會被列為考試重點


🧭 結論:資料不是前置作業,而是「核心能力」

很多人把資料當成:
👉「建模之前的準備工作」

但其實在實務與考試中:
👉 資料本身,就是 AI 的核心能力之一


▶ Next:我們該來談談——資料怎麼處理?

👉 資料預處理(Data Preprocessing) 到底在做什麼?


課程說明

🔖 以下內容為本系列的學習安排與閱讀指引。

  1. 為方便大家學習,我將全部章節進行劃分,詳見導覽文
  2. 本系列文章區分為「免費文」與「收費文」,
    目的在於清楚分開「初步認識」與「深入理解」兩個學習階段。 收費內容將在基礎概念之上,整合重點圖表與說明,並融入個人教學與應考經驗, 協助讀者建立可實際運用的理解框架。
  3. 各系列的收費文章皆以「考試情境」為主軸進行整理,
    不僅補齊必要的模型原理與判斷邏輯, 亦會搭配模擬題與選項解析, 協助學習者從「看懂內容」,進一步轉化為「選得正確」。
vocus|新世代的創作平台


留言
avatar-img
書子 的 AI 應用筆記
3會員
21內容數
這是一個關於「理解」與「實作」的學習沙龍。 我會分享程式與 AI 認證的學習脈絡,拆解考點背後的邏輯, 幫助學習者在快速變動的科技環境中,建立真正可用的能力。 這個沙龍適合: ・正在準備程式或 AI 相關認證的人 ・剛開始學程式,卻覺得觀念零散的人 ・轉職中,希望打好基礎、不想只追流行名詞的人
2026/03/03
實務應用上,資料往往「多卻沒標籤」,或「有標籤卻太少」。半監督式學習(Semi-Supervised Learning)利用少量已標註資料,搭配大量未標註資料進行學習,兼顧成本與效果。它不像監督式學習那樣要求完整標籤,也不同於非監督式學習只做分群,而是介於兩者之間的實務策略。
Thumbnail
2026/03/03
實務應用上,資料往往「多卻沒標籤」,或「有標籤卻太少」。半監督式學習(Semi-Supervised Learning)利用少量已標註資料,搭配大量未標註資料進行學習,兼顧成本與效果。它不像監督式學習那樣要求完整標籤,也不同於非監督式學習只做分群,而是介於兩者之間的實務策略。
Thumbnail
2026/02/26
集成學習(Ensemble Learning)可透過結合多個弱學習器,有效提升預測穩定度與準確率。本文整理三大核心方法:Bagging、Boosting 與 Stacking,同時比較隨機森林、AdaBoost、XGBoost 等代表演算法。幫助讀者建立清晰的判斷邏輯,並依情境選擇合適策略。
Thumbnail
2026/02/26
集成學習(Ensemble Learning)可透過結合多個弱學習器,有效提升預測穩定度與準確率。本文整理三大核心方法:Bagging、Boosting 與 Stacking,同時比較隨機森林、AdaBoost、XGBoost 等代表演算法。幫助讀者建立清晰的判斷邏輯,並依情境選擇合適策略。
Thumbnail
2026/02/09
三個臭皮匠,勝過一個諸葛亮。 集成學習(Ensemble Learning)的核心想法,其實很直覺:不要只聽一個聲音,而是讓多個模型一起做判斷。 它不是新的學習類型,而是一種能提升模型泛化能力的重要策略,也是 B 航線中一定要理解的關鍵概念。
Thumbnail
2026/02/09
三個臭皮匠,勝過一個諸葛亮。 集成學習(Ensemble Learning)的核心想法,其實很直覺:不要只聽一個聲音,而是讓多個模型一起做判斷。 它不是新的學習類型,而是一種能提升模型泛化能力的重要策略,也是 B 航線中一定要理解的關鍵概念。
Thumbnail
看更多
你可能也想看
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這篇是Titanic 生還預測:Machine Learning from Disaster原先後面有的補充資料,因為字數限制另外開到這篇寫。透過 Optuna,我們可以讓模型自主尋找最佳的特徵組合和參數設定,大幅提升實驗效率。
Thumbnail
這篇是Titanic 生還預測:Machine Learning from Disaster原先後面有的補充資料,因為字數限制另外開到這篇寫。透過 Optuna,我們可以讓模型自主尋找最佳的特徵組合和參數設定,大幅提升實驗效率。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
我之所以大膽的把股價預測稱之為「最強」,因為這本身就是一個可以變現的專案,並且可以同時累積數據分析及投資操作經驗,在投資與程式設計同時躍升為顯學的時代,把這兩條學習路徑融合在一起,似乎自然而然,也合情合理。當然,這條路的學習成本非常高,但翻山越嶺之後的美景也同樣讓人心神嚮往。
Thumbnail
我之所以大膽的把股價預測稱之為「最強」,因為這本身就是一個可以變現的專案,並且可以同時累積數據分析及投資操作經驗,在投資與程式設計同時躍升為顯學的時代,把這兩條學習路徑融合在一起,似乎自然而然,也合情合理。當然,這條路的學習成本非常高,但翻山越嶺之後的美景也同樣讓人心神嚮往。
Thumbnail
本文分享臨床催眠中疼痛管理與情緒的對應關係,並根據舊金山心理學家Susanne Babbel教授的理論,針對頭部不同部位的疼痛,分析其可能對應的情緒,並提供舒緩建議。文章目前涵蓋頭頂、後腦杓、額頭等部位,並說明如何透過呼吸法、正念等方式舒緩疼痛與調節情緒。
Thumbnail
本文分享臨床催眠中疼痛管理與情緒的對應關係,並根據舊金山心理學家Susanne Babbel教授的理論,針對頭部不同部位的疼痛,分析其可能對應的情緒,並提供舒緩建議。文章目前涵蓋頭頂、後腦杓、額頭等部位,並說明如何透過呼吸法、正念等方式舒緩疼痛與調節情緒。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
歡迎來到Scikit-learn教學系列的第二篇文章!在上篇中,我們介紹了Scikit-learn與機器學習基礎,並探索了Iris資料集。這一篇將聚焦於資料預處理,我們將學習如何使用Scikit-learn清理資料、處理缺失值、進行特徵縮放與類別編碼,並以真實資料集進行實作。
Thumbnail
歡迎來到Scikit-learn教學系列的第二篇文章!在上篇中,我們介紹了Scikit-learn與機器學習基礎,並探索了Iris資料集。這一篇將聚焦於資料預處理,我們將學習如何使用Scikit-learn清理資料、處理缺失值、進行特徵縮放與類別編碼,並以真實資料集進行實作。
Thumbnail
在學習完機器學習的各種基礎知識後,我們終於可以開始進入實際應用的階段。機器學習的常見應用大致可分為四大類:迴歸(Regression)、分類(Classification)、分群(Clustering)、以及時間序列分析(Time Series Analysis)。身為資料科學家,理解並掌握這些方法
Thumbnail
在學習完機器學習的各種基礎知識後,我們終於可以開始進入實際應用的階段。機器學習的常見應用大致可分為四大類:迴歸(Regression)、分類(Classification)、分群(Clustering)、以及時間序列分析(Time Series Analysis)。身為資料科學家,理解並掌握這些方法
Thumbnail
作為一名全職家庭主婦,那些年我的世界彷彿被無形地框限。如同 Eddie 一般,我感覺自己「一無所有」——沒有工作履歷,沒有被社會認可的專長,甚至連福利身分或屬於自己的存款都顯得遙不可及。 **圖書館,成了我靈魂唯一的避難所。** 在那安靜的空間裡,我汲取文字的養分——從《紅樓夢》的繁華與蒼涼,《
Thumbnail
作為一名全職家庭主婦,那些年我的世界彷彿被無形地框限。如同 Eddie 一般,我感覺自己「一無所有」——沒有工作履歷,沒有被社會認可的專長,甚至連福利身分或屬於自己的存款都顯得遙不可及。 **圖書館,成了我靈魂唯一的避難所。** 在那安靜的空間裡,我汲取文字的養分——從《紅樓夢》的繁華與蒼涼,《
Thumbnail
當我答應這個邀約時,心中想著要不要挑戰新的題目,也順帶讓我可以把堆積以久的「資料科學」相關書籍看完。因此,在還有好幾個月打底的情況下,我就設定了這個主題「資料科學於不同領域之應用」,既然決定了就要做到,但這也讓我後續苦不堪言。
Thumbnail
當我答應這個邀約時,心中想著要不要挑戰新的題目,也順帶讓我可以把堆積以久的「資料科學」相關書籍看完。因此,在還有好幾個月打底的情況下,我就設定了這個主題「資料科學於不同領域之應用」,既然決定了就要做到,但這也讓我後續苦不堪言。
Thumbnail
本文分享臨床催眠中疼痛管理與情緒的對應關係,針對五官不同部位的疼痛,分析其可能對應的情緒,並提供舒緩建議。本篇文章涵蓋眼睛、鼻子、耳朵、嘴巴等部位,並說明如何透過類似自我催眠的方式舒緩疼痛與調節情緒。
Thumbnail
本文分享臨床催眠中疼痛管理與情緒的對應關係,針對五官不同部位的疼痛,分析其可能對應的情緒,並提供舒緩建議。本篇文章涵蓋眼睛、鼻子、耳朵、嘴巴等部位,並說明如何透過類似自我催眠的方式舒緩疼痛與調節情緒。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News