AWS Glue DataBrew 是一項 Amazon Web Services (AWS) 提供的視覺化資料準備工具。它的主要目的是讓資料分析師和資料科學家能夠在不寫任何程式碼的情況下,輕鬆地清理、轉換和正規化資料,以加速資料分析和機器學習 (ML) 專案的資料準備過程。
主要功能和優勢:
- 視覺化界面,無需編碼:
- DataBrew 提供一個直觀的點擊式視覺化界面。使用者可以在圖形化環境中探索資料、套用轉換,並即時預覽結果,而無需編寫複雜的程式碼 (如 Python、Spark 或 SQL)。
- 這大大降低了資料準備的技術門檻,讓更多人能夠參與到資料處理的環節。
- 超過 250 種內建轉換:
- 它內建了龐大的轉換函式庫,包含超過 250 種預先建置的轉換,可以自動化各種資料準備任務。
- 這些轉換包括: 資料清理: 篩選異常值、填補缺失值、移除重複項、更正無效值。資料標準化: 將資料轉換為標準格式(如日期格式、大小寫轉換)、分割或合併欄位。資料豐富化: 套用自然語言處理 (NLP) 技術(如分詞、命名實體識別)、對資料進行桶化 (bucketization) 或獨熱編碼 (one-hot encoding) 等。資料品質分析: 建立資料設定檔 (data profile) 以了解資料模式、偵測異常狀況和評估資料品質。
- 資料譜系追蹤 (Data Lineage):
- DataBrew 可以視覺化地映射資料的譜系,讓使用者清楚地了解資料的來源、經過了哪些轉換步驟,以及最終的輸出。這有助於資料治理和問題追溯。
- 自動化與排程:
- 一旦定義好資料轉換步驟(稱為「配方 Recipes」),你可以將其保存下來,並建立「任務 Jobs」來自動化這些轉換。
- 這些任務可以設定排程,當新的資料進入來源系統時,自動套用已定義的轉換,實現資料準備流程的自動化。
- 與 AWS 生態系統整合:
- DataBrew 可以直接連接多種資料來源,包括: Amazon S3 (作為資料湖)Amazon Redshift (資料倉儲)Amazon RDS (關聯式資料庫服務)AWS Glue Data Catalog (資料中繼資料儲存庫)其他資料庫和資料倉儲。
- 轉換後的資料可以輸出到 S3 或其他目標服務。
- 它還與其他 AWS 服務無縫整合,例如 AWS Glue (用於 ETL 工作流程)、Amazon QuickSight (用於資料視覺化)、Amazon SageMaker (用於機器學習) 等。
- 成本效益:
- 採用按實際用量付費的模式,無需前期承諾,使用者只需為其使用的資料準備運算時間付費。
典型使用案例:
- 加速資料分析: 快速清理和轉換資料,以便在 Tableau、Amazon QuickSight 等工具中進行報告和視覺化。
- 準備機器學習資料集: 為 Amazon SageMaker 等 ML 服務準備高品質的訓練數據,減少資料工程師的工作量。
- 數據科學家和分析師的自助服務: 讓非程式設計背景的業務分析師也能獨立完成資料準備,釋放資料工程師的生產力。
- 資料湖中的資料精煉: 對儲存在 Amazon S3 資料湖中的原始資料進行清洗和轉換,使其適合下游分析。


















