AWS Glue DataBrew

2025/08/08 更新2025/06/19 發佈閱讀 4 分鐘

AWS Glue DataBrew 是一項 Amazon Web Services (AWS) 提供的視覺化資料準備工具。它的主要目的是讓資料分析師和資料科學家能夠在不寫任何程式碼的情況下，輕鬆地清理、轉換和正規化資料，以加速資料分析和機器學習 (ML) 專案的資料準備過程。

主要功能和優勢：

視覺化界面，無需編碼：
- DataBrew 提供一個直觀的點擊式視覺化界面。使用者可以在圖形化環境中探索資料、套用轉換，並即時預覽結果，而無需編寫複雜的程式碼 (如 Python、Spark 或 SQL)。
- 這大大降低了資料準備的技術門檻，讓更多人能夠參與到資料處理的環節。
超過 250 種內建轉換：
- 它內建了龐大的轉換函式庫，包含超過 250 種預先建置的轉換，可以自動化各種資料準備任務。
- 這些轉換包括：資料清理：篩選異常值、填補缺失值、移除重複項、更正無效值。資料標準化：將資料轉換為標準格式（如日期格式、大小寫轉換）、分割或合併欄位。資料豐富化：套用自然語言處理 (NLP) 技術（如分詞、命名實體識別）、對資料進行桶化 (bucketization) 或獨熱編碼 (one-hot encoding) 等。資料品質分析：建立資料設定檔 (data profile) 以了解資料模式、偵測異常狀況和評估資料品質。
資料譜系追蹤 (Data Lineage)：
- DataBrew 可以視覺化地映射資料的譜系，讓使用者清楚地了解資料的來源、經過了哪些轉換步驟，以及最終的輸出。這有助於資料治理和問題追溯。
自動化與排程：
- 一旦定義好資料轉換步驟（稱為「配方 Recipes」），你可以將其保存下來，並建立「任務 Jobs」來自動化這些轉換。
- 這些任務可以設定排程，當新的資料進入來源系統時，自動套用已定義的轉換，實現資料準備流程的自動化。
與 AWS 生態系統整合：
- DataBrew 可以直接連接多種資料來源，包括： Amazon S3 (作為資料湖)Amazon Redshift (資料倉儲)Amazon RDS (關聯式資料庫服務)AWS Glue Data Catalog (資料中繼資料儲存庫)其他資料庫和資料倉儲。
- 轉換後的資料可以輸出到 S3 或其他目標服務。
- 它還與其他 AWS 服務無縫整合，例如 AWS Glue (用於 ETL 工作流程)、Amazon QuickSight (用於資料視覺化)、Amazon SageMaker (用於機器學習) 等。
成本效益：
- 採用按實際用量付費的模式，無需前期承諾，使用者只需為其使用的資料準備運算時間付費。

典型使用案例：

加速資料分析： 快速清理和轉換資料，以便在 Tableau、Amazon QuickSight 等工具中進行報告和視覺化。
準備機器學習資料集： 為 Amazon SageMaker 等 ML 服務準備高品質的訓練數據，減少資料工程師的工作量。
數據科學家和分析師的自助服務： 讓非程式設計背景的業務分析師也能獨立完成資料準備，釋放資料工程師的生產力。
資料湖中的資料精煉： 對儲存在 Amazon S3 資料湖中的原始資料進行清洗和轉換，使其適合下游分析。

總之，AWS Glue DataBrew 旨在透過其直觀的視覺化界面和豐富的內建轉換功能，大幅簡化和加速資料準備過程，讓企業能夠更快地從原始資料中獲取洞察。

含 AI 應用內容

郝信華 iPAS AI應用規劃師學習筆記AWS AIF-C01

留言

郝信華 iPAS AI應用規劃師學習筆記

45會員

572內容數

現職 : 富邦建設資訊副理證照：經濟部 iPAS AI應用規劃師初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他：富邦美術館志工

郝信華 iPAS AI應用規劃師學習筆記的其他內容

2025/06/19

Amazon EMR(Elastic MapReduce)

Amazon EMR (Elastic MapReduce) 是一項 Amazon Web Services (AWS) 提供的全受管巨量資料 (Big Data) 處理服務。它使得在雲端上輕鬆、快速且經濟高效地運行和擴展 Apache Hadoop、Apache Spark 以及其他巨量資料框架（

2025/06/19

Amazon EMR(Elastic MapReduce)

2025/06/18

Amazon Bedrock Titan FM

Amazon Bedrock 是一個全受管的服務，它提供了一系列基礎模型 (Foundation Models, FMs) 供開發者使用，其中就包含了 Amazon 自家開發的 Amazon Titan 系列模型。 Amazon Titan FM (Foundation Models) 是 AWS

2025/06/18

Amazon Bedrock Titan FM

2025/06/18

AWS Data Exchange

AWS Data Exchange 是一項 Amazon Web Services (AWS) 提供的全受管服務，它旨在幫助客戶（資料訂閱者）輕鬆尋找、訂閱和使用第三方資料產品，同時也幫助資料提供者安全地將其資料產品提供給客戶。簡單來說，它就像一個資料市集，讓資料的買賣雙方能夠方便地在 AWS

2025/06/18

你可能也想看

本文介紹如何用Python繪製散布圖與迴歸線

#python#資料分析#數據分析

2024/04/05

果農的沙龍

如何用Python繪製散布圖與迴歸線

本文介紹如何用Python繪製散布圖與迴歸線

#python#資料分析#數據分析

2024/04/05

JayRay 的沙龍

【資料分析】python資料視覺化基礎操作語法彙整

Python資料視覺化在數據分析中扮演關鍵角色，透過視覺化捕捉數據模式、趨勢和異常，透過Matplotlib等工具創建專業圖表變相對簡單和高效。

#python#Matplotlib#資料分析

2024/08/03

JayRay 的沙龍

【資料分析】python資料視覺化基礎操作語法彙整

Python資料視覺化在數據分析中扮演關鍵角色，透過視覺化捕捉數據模式、趨勢和異常，透過Matplotlib等工具創建專業圖表變相對簡單和高效。

#python#Matplotlib#資料分析

2024/08/03

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11