AWS Glue 的運作主要由這三個部分組成,考試必考:
A. Data Catalog (資料型錄)
- 功能:這是一個中央中繼資料儲存庫 (Central Metadata Repository)。
- 重點:它不存實際的資料(Data),只存關於資料的描述(Metadata),例如:資料表名稱、欄位名稱、資料類型、資料位置。
- 整合:它是 Amazon Athena 和 Amazon Redshift Spectrum 查詢資料的基礎。沒有 Glue Data Catalog,Athena 就不知道 S3 裡有什麼檔案可以查。
B. Crawlers (爬蟲)
- 功能:自動去掃描你的資料來源(例如 S3 Bucket 或 RDS)。
- 作用:它會分析資料的結構(Schema),自動推斷欄位類型,然後把這些資訊寫入 Data Catalog。
- 自動化:當你的 S3 裡多了新檔案或欄位變了,Crawler 可以自動偵測並更新 Schema。
C. ETL Jobs (任務)
- 功能:實際執行資料轉換的地方。
- 引擎:底層是 Apache Spark(分散式運算),支援 Python 或 Scala 語言。
- 自動產碼:Glue 甚至可以自動幫你產生 ETL 的 Python 腳本,你不需要從零開始寫程式。
考試/實務 關鍵字 (Keywords)
- Serverless ETL (無伺服器 ETL) →→ Glue。
- Discover data schema automatically (自動發現資料結構) →→ Glue Crawler。
- Central metadata repository (中央中繼資料庫) →→ Glue Data Catalog。
- Run ETL jobs based on events (基於事件觸發 ETL) →→ Glue Triggers / Workflows。
- Clean data without writing code (不寫程式清洗資料) →→ Glue DataBrew。
- DynamicFrame (處理混亂資料的結構)。
















