Search

EMR

EMR
클라우드 빅데이터 플랫폼
MapReduce는 분산 병렬처리 컴퓨팅 모델의 이름
EMR은 빅데이터 플랫폼인 Hadoop 클러스터를 손쉽게 생성해 주는 서비스
Apache Spark, Apache HivePresto와 같은 오픈 소스 프레임워크를 사용
데이터 처리를 위한 EMR 클러스터(수십 ~ 수백 대의 EC2 인스턴스)를 자동으로 구성하고 확장 및 축소하는 기능을 함
머신러닝, 빅데이터 처리 등에 사용

EMR 구조

Master Node (마스터 노드)
클러스터 전체를 관리하는 노드
코어노드 또는 태스크노드에 처리를 부여한다
Core Node (코어 노드)
연산 처리를 실행하는 노드
데이터를 보관하는 파일시스템 HDFS(Hadoop Distributed File System)를 갖는다.
Task Node (태스크 노드) (optional)
코어노드와 같이 연산처리를 한다.
파일시스템을 갖지 않는다. 연산처리 전용의 노드이다.
클러스터의 코어노드 또는 태스크노드는 수동 또는 자동으로 스케일링할 수 있다.

HDFS (Hadoop Distributed File System)

Hadoop의 파일 시스템이다.
EMR에서 마스터노드와 코어노드에서 사용 가능
EMR 클러스터가 종료되면 HDFS의 데이터는 사라진다.

EMRFS (EMR File System)

Amazon S3를 EMR 클러스터에서 파일 시스템으로 사용할 수 있도록 하는 기능
데이터를 영원히 보관하여 EMR 클러스터가 종료되어도 데이터는 사리 지지 않음
S3가 갖는 기능(데이터 암호화등)도 같이 사용가능