20/100 小結與測驗-使用 Pandas & NumPy 進行資料處理 🐼 數據處理的強力工具，學會它們效率大增！

Signal Architect｜艾韓思

發佈於🤖 機器學習《資料會思考嗎？｜讓機器學會判斷的第一現場》

2026/04/08 更新2025/05/26 發佈閱讀 12 分鐘

AI時代系列(1) 機器學習三部曲: 🔹 第一部：《機器學習 —— AI 智慧的啟航》

20/100 第二週：資料處理與特徵工程

20. 小結與測驗-使用 Pandas & NumPy 進行資料處理 🐼 數據處理的強力工具，學會它們效率大增！

✅ 2.1 資料清理與前處理

• 刪除重複數據、處理異常值、格式轉換。

• 確保數據一致性，提高 AI 的準確性。

✅ 2.2 缺失值處理

• 刪除（Drop）：當缺失值過多時可考慮刪除整列或整行。

• 填補（Fill）：使用均值、中位數、眾數填補缺失值。

• 插值（Interpolate）：根據趨勢預測缺失值。

✅ 2.3 標準化與正規化

• 標準化（Standardization, Z-score）：適合線性回歸、SVM、KNN。

• 正規化（Min-Max Scaling）：適合深度學習與距離計算。

✅ 2.4 類別變數處理

• One-Hot Encoding：將類別轉成二元變數（適合無序類別）。

• Label Encoding：將類別映射為數值（適合有序類別）。

✅ 2.5 特徵選擇技術

• 過濾法（Filter）：相關係數、卡方檢定。

• 包裝法（Wrapper）：遞歸特徵消除（RFE）。

• 嵌入法（Embedded）：Lasso、決策樹特徵重要性。

✅ 2.6 PCA 降維技術

• 主成分分析（PCA）可降低數據維度，提高計算效率。

• 保留高解釋方差的主成分，刪除冗餘數據。

✅ 2.7 資料分割

• 訓練集（Training Set）：用於訓練模型（約 70-80%）。

• 測試集（Test Set）：用於最終評估模型（約 20-30%）。

• 驗證集（Validation Set）：用於調整超參數。

✅ 2.8 處理不平衡資料

• 過採樣（Oversampling）：增加少數類別數據（如 SMOTE）。

• 欠採樣（Undersampling）：減少多數類別數據。

• 調整權重（Class Weights）：讓模型更重視少數類別。

✅ 2.9 類別不平衡問題的解決方案

• SMOTE（合成少數類別數據）。

• 調整類別權重讓模型更公平。

• 使用 AUC-ROC、F1-score 來評估模型（避免只看準確率）。

________________________________________

📌 2.10 測驗與答案解析

💡 測驗題（多選）

Q1. 哪些方法可以用來處理缺失值？

🔘 A. 刪除含有缺失值的行或列

🔘 B. 用平均值、中位數、眾數填補缺失值

🔘 C. 直接忽略，不處理

🔘 D. 使用插值方法來預測缺失值

✅ 答案：A, B, D（C 可能導致數據問題）

________________________________________

Q2. 哪些方法適合用來處理類別變數？

🔘 A. 標準化（Standardization）

🔘 B. One-Hot Encoding

🔘 C. Min-Max Scaling

🔘 D. Label Encoding

✅ 答案：B, D（A 和 C 適用於數值數據）

________________________________________

Q3. PCA 的主要作用是什麼？

🔘 A. 提高模型準確率

🔘 B. 降低特徵數，提高計算效率

🔘 C. 讓 AI 更加「聰明」

🔘 D. 保留最重要的數據變異性

✅ 答案：B, D（PCA 主要用於降維）

________________________________________

Q4. 處理不平衡數據時，下列哪些方法可用？

🔘 A. 直接忽略不平衡問題

🔘 B. 過採樣（如 SMOTE）

🔘 C. 欠採樣（Undersampling）

🔘 D. 使用 class_weight 調整模型

✅ 答案：B, C, D（A 可能導致嚴重的模型偏差）

________________________________________

📌 Pandas & NumPy 資料處理完整教學：安裝 + 操作步驟

一、開發環境安裝

1. ✅ 安裝 Python

o 前往官網：https://www.python.org/downloads/

o 推薦版本：Python 3.8 以上

2. ✅ 安裝 pip（Python 套件管理器）

o 安裝 Python 時建議勾選「Add Python to PATH」，pip 就會自動安裝好。

3. ✅ 安裝必要套件：Pandas、NumPy、Scikit-learn 打開終端機（Terminal）或命令提示字元（cmd），執行以下指令：

pip install pandas numpy scikit-learn

4. ✅ （可選）使用 Jupyter Notebook 開發環境

如果你喜歡交互式的方式學習，可以多裝：

pip install notebook

jupyter notebook

________________________________________

二、操作步驟

下面每一段程式碼，你可以直接在 Jupyter Notebook 或 Python 腳本中執行。

________________________________________

✅ (1) 資料清理與缺失值處理

操作步驟：

1. 匯入套件

import pandas as pd

import numpy as np

2. 建立 DataFrame

data = {'Name': ['Alice', 'Bob', 'Charlie', None, 'David'],

'Age': [25, np.nan, 30, 22, 40],

'Salary': [50000, 60000, np.nan, 45000, 70000]}

df = pd.DataFrame(data)

3. 填補缺失值

df['Age'].fillna(df['Age'].median(), inplace=True)

df['Salary'].fillna(df['Salary'].mean(), inplace=True)

4. 刪除缺失值

df.dropna(subset=['Name'], inplace=True)

print(df)

________________________________________

✅ (2) 類別變數處理（One-Hot Encoding & Label Encoding）

操作步驟：

1. 匯入必要套件

from sklearn.preprocessing import OneHotEncoder, LabelEncoder

import pandas as pd

2. 建立資料

df = pd.DataFrame({'Color': ['Red', 'Blue', 'Green', 'Red', 'Green']})

3. One-Hot Encoding

df_onehot = pd.get_dummies(df, columns=['Color'])

print(df_onehot)

4. Label Encoding

encoder = LabelEncoder()

df['Color_Label'] = encoder.fit_transform(df['Color'])

print(df)

________________________________________

✅ (3) 標準化與正規化

操作步驟：

1. 匯入必要套件

from sklearn.preprocessing import StandardScaler, MinMaxScaler

import numpy as np

2. 準備數據

X = np.array([[10, 200], [15, 300], [20, 400]])

3. 標準化

scaler = StandardScaler()

X_standardized = scaler.fit_transform(X)

print("標準化結果:", X_standardized)

4. 正規化

scaler = MinMaxScaler()

X_normalized = scaler.fit_transform(X)

print("正規化結果:", X_normalized)

________________________________________

✅ (4) 資料分割

操作步驟：

1. 匯入必要套件

from sklearn.model_selection import train_test_split

import numpy as np

2. 準備數據

X = np.random.rand(100, 5)

y = np.random.randint(0, 2, size=100)

3. 資料分割

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"訓練集大小: {X_train.shape}, 測試集大小: {X_test.shape}")

________________________________________

三、加碼：常見錯誤排查

問題解決方式

找不到模組 ModuleNotFoundError : 確認是否已用 pip install 安裝好相關套件。

pandas is not defined: 確認是否有執行 import pandas as pd。

編碼錯誤（中文亂碼）: 記得使用 UTF-8 編碼保存 Python 檔案。

Jupyter notebook 執行失敗: 確認執行 pip install notebook 並使用 jupyter notebook 開啟。

________________________________________

四、官方文件推薦

• 📖 Pandas 官方文件： https://pandas.pydata.org/docs/

• 📖 NumPy 官方文件： https://numpy.org/doc/

• 📖 scikit-learn 官方文件（數據預處理工具）： https://scikit-learn.org/stable/modules/preprocessing.html

_________________________________________________

🎯 總結

📌 數據處理是 AI 成功的基石！

📌 學會 Pandas & NumPy，讓數據處理更高效！

📌 測驗可幫助複習概念，確保學習效果！ 🚀

這樣，你的 AI 模型就能更穩定、更公平、更準確地進行預測！✨

含 AI 應用內容

艾韓思 AIHANS｜AI 應用工程筆記🤖 機器學習《資料會思考嗎？｜讓機器學會判斷的第一現場》

留言

艾韓思 AIHANS｜AI 應用工程筆記

46會員

78內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

艾韓思 AIHANS｜AI 應用工程筆記的其他內容

2025/05/26

19/100 類別不平衡問題的解決方案 🚦 用權重調整或數據合成技術（SMOTE），讓預測更公平！

面對類別不平衡，別再只看準確率！本單元以詐欺檢測為例，手把手示範過／欠採樣、SMOTE 與 class_weight，並教你用 Recall、F1、AUC 全面評估，讓模型真正兼顧公平與效能。理論＋程式碼雙線並進，入門實戰必看！

2025/05/26

19/100 類別不平衡問題的解決方案 🚦 用權重調整或數據合成技術（SMOTE），讓預測更公平！

2025/05/26

18/100 處理不平衡資料 ⚖ 避免 AI 偏心，讓少數類別也能被正確預測！

失衡的詐欺、醫療資料若不修正，模型易忽視少數類別。本單元教你 RandomOversampling、SMOTE、欠採樣及 class_weight，並用 Precision、Recall、F1、AUC 評估，附 sklearn 範例，快速提升召回率，打造公平 AI，必讀！

2025/05/26

18/100 處理不平衡資料 ⚖ 避免 AI 偏心，讓少數類別也能被正確預測！

2025/05/26

17/100 資料分割（訓練集、測試集） ✂ 適當切分數據，避免 AI 記住答案而不會「舉一反三」！

模型準確不代表真正聰明！訓練集、測試集合理拆分，是驗證泛化能力的關鍵。學習本單元，你將掌握隨機分割、時間序列留出、交叉驗證等技巧，避免「記答案」陷阱，確保模型在未知資料也能穩健表現。從理論到 sklearn 實作，一次搞懂資料切分黃金比例與常見誤區，為後續調參與部署奠定紮實基礎，推薦必讀！

2025/05/26

17/100 資料分割（訓練集、測試集） ✂ 適當切分數據，避免 AI 記住答案而不會「舉一反三」！

看更多

你可能也想看

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

Darren的沙龍

解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

本文談及資料科學的領域與分工。首先是建造一個AI的研發流程，資料收集到 AI 模型訓練的過程，AI經歷這一切流程被創造出來並產生價值；再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。

#人工智慧#AI#資料科學

2024/07/05

Darren的沙龍

解密 AI 與資料科學 (一) : AI 開發鏈, 跨領域溝通 & 最具未來性的職業

#人工智慧#AI#資料科學

2024/07/05

虹靈御所 × 元壹宇宙

AI助手數據收集和訓練過程簡介

本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據，數據的清洗和結構化處理，知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議，歡迎隨時告訴我們，讓我們共同探索，攜手進步。

2024/07/11

2024/07/11

最新的AI趨勢讓人眼花撩亂，不知要如何開始學習？本文介紹了作者對AI的使用和體驗，以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具，可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心，不停止學習，並提出了對健康生活和開心生活的祝福。

2024/06/14

2024/06/14

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

數據分析與解讀隨著數據的爆炸式增長，能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術，如統計學、數據挖掘、機器學習等。然而，僅靠短時間的數據分析並不足以提供深入見解。要熟悉數據分析工具和技術，如統計學、數據挖掘和機器學習，可以從以下幾個方面入手：基礎知識的學習

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

普普文創

【文創漫談】數據分析與解讀 | 如何利用AI | 增強能力

#文創漫談#數據分析與解讀#如何利用AI增強能力

2024/07/28

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌#專欄#cacaFly

2024/07/31

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

背景：從冷門配角到市場主線，算力與電力被重新定價小P從2008進入股市，每一個時期的投資亮點都不同，記得2009蘋果手機剛上市，當時蘋果只要在媒體上提到哪一間供應鏈，隔天股價就有驚人的表現，當時光學鏡頭非常熱門，因為手機第一次搭上鏡頭可以拍照，也造就傳統相機廠的殞落，如今手機已經全面普及，題

#AI#算力#電力

2026/04/11

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

#AI#算力#電力

2026/04/11

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19