20/100 小結與測驗-使用 Pandas & NumPy 進行資料處理 🐼 數據處理的強力工具,學會它們效率大增!

AI時代系列(1) 機器學習三部曲: 🔹 第一部:《機器學習 —— AI 智慧的啟航》

20/100 第二週:資料處理與特徵工程

20. 小結與測驗-使用 Pandas & NumPy 進行資料處理 🐼 數據處理的強力工具,學會它們效率大增!

✅ 2.1 資料清理與前處理

刪除重複數據、處理異常值、格式轉換。

確保數據一致性,提高 AI 的準確性。

✅ 2.2 缺失值處理

刪除(Drop):當缺失值過多時可考慮刪除整列或整行。

填補(Fill):使用均值、中位數、眾數填補缺失值。

插值(Interpolate):根據趨勢預測缺失值。

✅ 2.3 標準化與正規化

標準化(Standardization, Z-score):適合線性回歸、SVM、KNN。

正規化(Min-Max Scaling):適合深度學習與距離計算。

✅ 2.4 類別變數處理

One-Hot Encoding:將類別轉成二元變數(適合無序類別)。

Label Encoding:將類別映射為數值(適合有序類別)。

✅ 2.5 特徵選擇技術

過濾法(Filter):相關係數、卡方檢定。

包裝法(Wrapper):遞歸特徵消除(RFE)。

嵌入法(Embedded):Lasso、決策樹特徵重要性。

✅ 2.6 PCA 降維技術

主成分分析(PCA) 可降低數據維度,提高計算效率。

保留高解釋方差的主成分,刪除冗餘數據。

✅ 2.7 資料分割

訓練集(Training Set):用於訓練模型(約 70-80%)。

測試集(Test Set):用於最終評估模型(約 20-30%)。

驗證集(Validation Set):用於調整超參數。

✅ 2.8 處理不平衡資料

過採樣(Oversampling):增加少數類別數據(如 SMOTE)。

欠採樣(Undersampling):減少多數類別數據。

調整權重(Class Weights):讓模型更重視少數類別。

✅ 2.9 類別不平衡問題的解決方案

SMOTE(合成少數類別數據)。

調整類別權重 讓模型更公平。

使用 AUC-ROC、F1-score 來評估模型(避免只看準確率)。

________________________________________

📌 2.10 測驗與答案解析

💡 測驗題(多選)

Q1. 哪些方法可以用來處理缺失值?

🔘 A. 刪除含有缺失值的行或列

🔘 B. 用平均值、中位數、眾數填補缺失值

🔘 C. 直接忽略,不處理

🔘 D. 使用插值方法來預測缺失值

✅ 答案:A, B, D(C 可能導致數據問題)

________________________________________

Q2. 哪些方法適合用來處理類別變數?

🔘 A. 標準化(Standardization)

🔘 B. One-Hot Encoding

🔘 C. Min-Max Scaling

🔘 D. Label Encoding

✅ 答案:B, D(A 和 C 適用於數值數據)

________________________________________

Q3. PCA 的主要作用是什麼?

🔘 A. 提高模型準確率

🔘 B. 降低特徵數,提高計算效率

🔘 C. 讓 AI 更加「聰明」

🔘 D. 保留最重要的數據變異性

✅ 答案:B, D(PCA 主要用於降維)

________________________________________

Q4. 處理不平衡數據時,下列哪些方法可用?

🔘 A. 直接忽略不平衡問題

🔘 B. 過採樣(如 SMOTE)

🔘 C. 欠採樣(Undersampling)

🔘 D. 使用 class_weight 調整模型

✅ 答案:B, C, D(A 可能導致嚴重的模型偏差)

________________________________________

📌 Pandas & NumPy 資料處理完整教學:安裝 + 操作步驟

一、開發環境安裝

1. ✅ 安裝 Python

o 前往官網:https://www.python.org/downloads/

o 推薦版本:Python 3.8 以上

2. ✅ 安裝 pip(Python 套件管理器)

o 安裝 Python 時建議勾選「Add Python to PATH」,pip 就會自動安裝好。

3. ✅ 安裝必要套件:Pandas、NumPy、Scikit-learn 打開終端機(Terminal)或命令提示字元(cmd),執行以下指令:

pip install pandas numpy scikit-learn

4. ✅ (可選)使用 Jupyter Notebook 開發環境

如果你喜歡交互式的方式學習,可以多裝:

pip install notebook

jupyter notebook

________________________________________

二、操作步驟

下面每一段程式碼,你可以直接在 Jupyter Notebook 或 Python 腳本中執行。

________________________________________

✅ (1) 資料清理與缺失值處理

操作步驟:

1. 匯入套件

import pandas as pd

import numpy as np

2. 建立 DataFrame

data = {'Name': ['Alice', 'Bob', 'Charlie', None, 'David'],

'Age': [25, np.nan, 30, 22, 40],

'Salary': [50000, 60000, np.nan, 45000, 70000]}

df = pd.DataFrame(data)

3. 填補缺失值

df['Age'].fillna(df['Age'].median(), inplace=True)

df['Salary'].fillna(df['Salary'].mean(), inplace=True)

4. 刪除缺失值

df.dropna(subset=['Name'], inplace=True)

print(df)

________________________________________

✅ (2) 類別變數處理(One-Hot Encoding & Label Encoding)

操作步驟:

1. 匯入必要套件

from sklearn.preprocessing import OneHotEncoder, LabelEncoder

import pandas as pd

2. 建立資料

df = pd.DataFrame({'Color': ['Red', 'Blue', 'Green', 'Red', 'Green']})

3. One-Hot Encoding

df_onehot = pd.get_dummies(df, columns=['Color'])

print(df_onehot)

4. Label Encoding

encoder = LabelEncoder()

df['Color_Label'] = encoder.fit_transform(df['Color'])

print(df)

________________________________________

✅ (3) 標準化與正規化

操作步驟:

1. 匯入必要套件

from sklearn.preprocessing import StandardScaler, MinMaxScaler

import numpy as np

2. 準備數據

X = np.array([[10, 200], [15, 300], [20, 400]])

3. 標準化

scaler = StandardScaler()

X_standardized = scaler.fit_transform(X)

print("標準化結果:", X_standardized)

4. 正規化

scaler = MinMaxScaler()

X_normalized = scaler.fit_transform(X)

print("正規化結果:", X_normalized)

________________________________________

✅ (4) 資料分割

操作步驟:

1. 匯入必要套件

from sklearn.model_selection import train_test_split

import numpy as np

2. 準備數據

X = np.random.rand(100, 5)

y = np.random.randint(0, 2, size=100)

3. 資料分割

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"訓練集大小: {X_train.shape}, 測試集大小: {X_test.shape}")

________________________________________

三、加碼:常見錯誤排查

問題 解決方式

找不到模組 ModuleNotFoundError : 確認是否已用 pip install 安裝好相關套件。

pandas is not defined: 確認是否有執行 import pandas as pd。

編碼錯誤(中文亂碼): 記得使用 UTF-8 編碼保存 Python 檔案。

Jupyter notebook 執行失敗: 確認執行 pip install notebook 並使用 jupyter notebook 開啟。

________________________________________

四、官方文件推薦

📖 Pandas 官方文件: https://pandas.pydata.org/docs/

📖 NumPy 官方文件: https://numpy.org/doc/

📖 scikit-learn 官方文件(數據預處理工具): https://scikit-learn.org/stable/modules/preprocessing.html

_________________________________________________

🎯 總結

📌 數據處理是 AI 成功的基石!

📌 學會 Pandas & NumPy,讓數據處理更高效!

📌 測驗可幫助複習概念,確保學習效果! 🚀

這樣,你的 AI 模型就能更穩定、更公平、更準確地進行預測!✨


留言
avatar-img
艾韓思 AIHANS|AI 應用工程筆記
46會員
78內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
2025/05/26
面對類別不平衡,別再只看準確率!本單元以詐欺檢測為例,手把手示範過/欠採樣、SMOTE 與 class_weight,並教你用 Recall、F1、AUC 全面評估,讓模型真正兼顧公平與效能。理論+程式碼雙線並進,入門實戰必看!
Thumbnail
2025/05/26
面對類別不平衡,別再只看準確率!本單元以詐欺檢測為例,手把手示範過/欠採樣、SMOTE 與 class_weight,並教你用 Recall、F1、AUC 全面評估,讓模型真正兼顧公平與效能。理論+程式碼雙線並進,入門實戰必看!
Thumbnail
2025/05/26
失衡的詐欺、醫療資料若不修正,模型易忽視少數類別。本單元教你 RandomOversampling、SMOTE、欠採樣及 class_weight,並用 Precision、Recall、F1、AUC 評估,附 sklearn 範例,快速提升召回率,打造公平 AI,必讀!
Thumbnail
2025/05/26
失衡的詐欺、醫療資料若不修正,模型易忽視少數類別。本單元教你 RandomOversampling、SMOTE、欠採樣及 class_weight,並用 Precision、Recall、F1、AUC 評估,附 sklearn 範例,快速提升召回率,打造公平 AI,必讀!
Thumbnail
2025/05/26
模型準確不代表真正聰明!訓練集、測試集合理拆分,是驗證泛化能力的關鍵。學習本單元,你將掌握隨機分割、時間序列留出、交叉驗證等技巧,避免「記答案」陷阱,確保模型在未知資料也能穩健表現。從理論到 sklearn 實作,一次搞懂資料切分黃金比例與常見誤區,為後續調參與部署奠定紮實基礎,推薦必讀!
Thumbnail
2025/05/26
模型準確不代表真正聰明!訓練集、測試集合理拆分,是驗證泛化能力的關鍵。學習本單元,你將掌握隨機分割、時間序列留出、交叉驗證等技巧,避免「記答案」陷阱,確保模型在未知資料也能穩健表現。從理論到 sklearn 實作,一次搞懂資料切分黃金比例與常見誤區,為後續調參與部署奠定紮實基礎,推薦必讀!
Thumbnail
看更多
你可能也想看
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
最新的AI趨勢讓人眼花撩亂,不知要如何開始學習?本文介紹了作者對AI的使用和體驗,以及各類AI工具以及推薦的選擇。最後強調了AI是一個很好用的工具,可以幫助人們節省時間並提高效率。鼓勵人們保持好奇心,不停止學習,並提出了對健康生活和開心生活的祝福。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
數據分析與解讀 隨著數據的爆炸式增長,能夠分析、解讀和應用數據的能力變得至關重要。這包括熟悉數據分析工具和技術,如統計學、數據挖掘、機器學習等。然而,僅靠短時間的數據分析並不足以提供深入見解。 要熟悉數據分析工具和技術,如統計學、數據挖掘和機器學習,可以從以下幾個方面入手: 基礎知識的學習
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
這是一篇介紹如何使用AI來生成貓貓圖片的文章,作者透過幾個軟體的使用經驗,分享了AI生成圖片的效果以及注意事項。文章內容豐富,並且有各種關鍵字和描述,可以吸引潛在讀者。
Thumbnail
這是一篇介紹如何使用AI來生成貓貓圖片的文章,作者透過幾個軟體的使用經驗,分享了AI生成圖片的效果以及注意事項。文章內容豐富,並且有各種關鍵字和描述,可以吸引潛在讀者。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News