Amazon EMR(Elastic MapReduce)

更新 發佈閱讀 4 分鐘

Amazon EMR (Elastic MapReduce) 是一項 Amazon Web Services (AWS) 提供的全受管巨量資料 (Big Data) 處理服務。它使得在雲端上輕鬆、快速且經濟高效地運行和擴展 Apache Hadoop、Apache Spark 以及其他巨量資料框架(如 Hive、Presto、Flink 等)變得可能。

簡單來說,如果你有大量的資料需要處理和分析,並且想使用開源的巨量資料工具鏈,但又不想管理底層的伺服器叢集,Amazon EMR 就是為你設計的服務。

主要特點:

  1. 全受管服務:
    • AWS 負責所有底層基礎設施的管理,包括伺服器的佈建、組態、監控、修補和擴展。你無需擔心硬體故障、軟體安裝或叢集維護。
    • 這大大簡化了巨量資料叢集的部署和操作。
  2. 支持多種開源巨量資料框架:
    • EMR 不僅支援 Apache Hadoop 和 Apache Spark (最常用的巨量資料處理框架),還支援: Apache Hive: 資料倉儲軟體,允許使用 SQL 查詢資料。Apache Presto (Trino): 分散式 SQL 查詢引擎,用於對大型資料集進行快速分析。Apache Flink: 串流處理框架,用於即時資料分析。Apache HBase: 分散式、非關聯式資料庫。Apache ZooKeeper: 用於分散式應用程式的協調服務。Hue: Web 介面的 Hadoop 應用程式管理器。Ganglia: 監控系統。
    • 這讓用戶可以根據其具體的分析需求選擇最合適的工具。
  3. 彈性擴展 (Elastic Scaling):
    • EMR 叢集可以根據你的工作負載需求彈性擴展或縮減。你可以根據需要增加或減少節點,以優化成本和效能。
    • 支援手動擴展、自動擴展,甚至可以在工作完成後自動終止叢集,節省成本。
  4. 成本效益:
    • 由於其彈性擴展和按使用量付費的模式,EMR 可以在處理巨量資料時提供較高的成本效益。
    • 你可以利用 Spot Instances 來進一步降低運算成本,特別是對於容錯的工作負載。
    • 支援單次使用(按小時計費)或長期保留的計算容量。
  5. 與其他 AWS 服務整合:
    • EMR 與其他 AWS 服務無縫整合,例如: Amazon S3: 作為資料湖,提供可擴展且耐用的資料儲存,EMR 可以直接從 S3 讀取和寫入資料。Amazon EC2: EMR 叢集運行在 EC2 實例上。Amazon CloudWatch: 用於監控 EMR 叢集的指標和日誌。AWS Glue Data Catalog: 作為 EMR 的統一中繼資料儲存庫。AWS Lake Formation: 用於資料湖的安全和治理。

典型使用案例:

  • 巨量資料處理與轉換 (ETL): 對大量原始數據進行提取、轉換和載入,以用於數據倉儲或分析。
  • 日誌分析: 分析來自應用程式、網站和伺服器的大量日誌數據,以獲取營運洞察。
  • 點擊流分析: 分析網站使用者的點擊行為,以優化用戶體驗和商業策略。
  • 機器學習: 使用 Spark MLlib 等框架在大型數據集上訓練機器學習模型。
  • 基因組學和科學模擬: 處理和分析龐大的科學數據。
  • 互動式分析: 使用 Presto 或 Spark 進行即時或近即時的數據查詢。

總之,Amazon EMR 是一個強大的、全受管的巨量資料處理平台,它使企業能夠輕鬆地利用流行的開源框架(如 Hadoop 和 Spark)來處理、分析和轉換大規模資料集,而無需負擔底層基礎設施的管理負擔。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
45會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/06/18
Amazon Bedrock 是一個全受管的服務,它提供了一系列基礎模型 (Foundation Models, FMs) 供開發者使用,其中就包含了 Amazon 自家開發的 Amazon Titan 系列模型。 Amazon Titan FM (Foundation Models) 是 AWS
2025/06/18
Amazon Bedrock 是一個全受管的服務,它提供了一系列基礎模型 (Foundation Models, FMs) 供開發者使用,其中就包含了 Amazon 自家開發的 Amazon Titan 系列模型。 Amazon Titan FM (Foundation Models) 是 AWS
2025/06/18
AWS Data Exchange 是一項 Amazon Web Services (AWS) 提供的全受管服務,它旨在幫助客戶(資料訂閱者)輕鬆尋找、訂閱和使用第三方資料產品,同時也幫助資料提供者安全地將其資料產品提供給客戶。 簡單來說,它就像一個資料市集,讓資料的買賣雙方能夠方便地在 AWS
2025/06/18
AWS Data Exchange 是一項 Amazon Web Services (AWS) 提供的全受管服務,它旨在幫助客戶(資料訂閱者)輕鬆尋找、訂閱和使用第三方資料產品,同時也幫助資料提供者安全地將其資料產品提供給客戶。 簡單來說,它就像一個資料市集,讓資料的買賣雙方能夠方便地在 AWS
2025/06/18
ISV 是 Independent Software Vendor (獨立軟體供應商) 的縮寫。 它指的是那些專門開發、銷售和維護其自有軟體產品或解決方案的公司。 這些軟體產品通常是為特定目的或特定產業設計的,並在各種硬體平台、作業系統或雲端服務上運行。 ISV 的核心特點: 獨立性: ISV
2025/06/18
ISV 是 Independent Software Vendor (獨立軟體供應商) 的縮寫。 它指的是那些專門開發、銷售和維護其自有軟體產品或解決方案的公司。 這些軟體產品通常是為特定目的或特定產業設計的,並在各種硬體平台、作業系統或雲端服務上運行。 ISV 的核心特點: 獨立性: ISV
看更多
你可能也想看
Thumbnail
疫情世代後,企業在思考的已經不是要不要上雲,而是哪些服務或內容可以上雲,透過混合雲的形式,搭配公司的策略達到靈活且彈性的最佳效益。 而既然要能達到最佳效益,選擇適合公司環境的雲端環境,對於現代企業來說非常重要,這篇文章將與大家分享AWS、GCP、Azure三大公有雲的特點與優勢。
Thumbnail
疫情世代後,企業在思考的已經不是要不要上雲,而是哪些服務或內容可以上雲,透過混合雲的形式,搭配公司的策略達到靈活且彈性的最佳效益。 而既然要能達到最佳效益,選擇適合公司環境的雲端環境,對於現代企業來說非常重要,這篇文章將與大家分享AWS、GCP、Azure三大公有雲的特點與優勢。
Thumbnail
AWS CloudFront + S3 遇到 CORS 解決方式
Thumbnail
AWS CloudFront + S3 遇到 CORS 解決方式
Thumbnail
透過充分利用 AWS Organizations 和 CloudFormation StackSets,您可以更好地實現企業級的雲端管理與控制,為業務的持續發展提供穩固的技術支撐。
Thumbnail
透過充分利用 AWS Organizations 和 CloudFormation StackSets,您可以更好地實現企業級的雲端管理與控制,為業務的持續發展提供穩固的技術支撐。
Thumbnail
企業資源規劃 (ERP) 的格局正在發生重大轉變。 傳統的本地 ERP 系統雖然強大,但可能不夠靈活且維護成本高。 隨著組織在不斷發展的數位時代追求敏捷性和可擴展性,基於雲端的 ERP 解決方案正在成為首選。 基於雲端的 ERP 的興起 基於雲端的 ERP 系統在遠端伺服器網路上運行,用戶可以透
Thumbnail
企業資源規劃 (ERP) 的格局正在發生重大轉變。 傳統的本地 ERP 系統雖然強大,但可能不夠靈活且維護成本高。 隨著組織在不斷發展的數位時代追求敏捷性和可擴展性,基於雲端的 ERP 解決方案正在成為首選。 基於雲端的 ERP 的興起 基於雲端的 ERP 系統在遠端伺服器網路上運行,用戶可以透
Thumbnail
在AI浪潮下,009819 中信美國數據中心及電力ETF 直接卡位算力與電力雙主軸,等於掌握AI最核心基建。2008從 Apple Inc. 與 iPhone 帶動供應鏈,到如今AI崛起,主線已由應用端轉向底層。AI發展離不開算力與電力支撐,009819的價值,在於押中「沒有它不行」的核心資產。
Thumbnail
在AI浪潮下,009819 中信美國數據中心及電力ETF 直接卡位算力與電力雙主軸,等於掌握AI最核心基建。2008從 Apple Inc. 與 iPhone 帶動供應鏈,到如今AI崛起,主線已由應用端轉向底層。AI發展離不開算力與電力支撐,009819的價值,在於押中「沒有它不行」的核心資產。
Thumbnail
本篇使用 AWS Lambda 結合 Amazon Bedrock 和 Claude 3 來分析儲存在 Amazon S3 中的圖像的示範
Thumbnail
本篇使用 AWS Lambda 結合 Amazon Bedrock 和 Claude 3 來分析儲存在 Amazon S3 中的圖像的示範
Thumbnail
實踐AWS中使用Lambda來負責登入簽核及與OpenAI API溝通,並利用S3容器託管一個靜態網頁做為前端
Thumbnail
實踐AWS中使用Lambda來負責登入簽核及與OpenAI API溝通,並利用S3容器託管一個靜態網頁做為前端
Thumbnail
實驗目的:Lambda@Edge (L@E) 讓 CLoudFront (CF) 回源時,自動選擇較近的 S3 region 回源
Thumbnail
實驗目的:Lambda@Edge (L@E) 讓 CLoudFront (CF) 回源時,自動選擇較近的 S3 region 回源
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
Kafka是一個先進的分佈式流處理平臺,具有高吞吐量、可擴展性、容錯性和低延遲特性,提供瞭解耦、非同步和削峰特點。本文介紹了Kafka的通訊模式、適合的應用場景和未來發展趨勢,旨在幫助使用者更好地理解和應用Kafka。
Thumbnail
Kafka是一個先進的分佈式流處理平臺,具有高吞吐量、可擴展性、容錯性和低延遲特性,提供瞭解耦、非同步和削峰特點。本文介紹了Kafka的通訊模式、適合的應用場景和未來發展趨勢,旨在幫助使用者更好地理解和應用Kafka。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News