EMR

•

클라우드 빅데이터 플랫폼

•

MapReduce는 분산 병렬처리 컴퓨팅 모델의 이름

•

EMR은 빅데이터 플랫폼인 Hadoop 클러스터를 손쉽게 생성해 주는 서비스

•

Apache Spark, Apache Hive 및 Presto와 같은 오픈 소스 프레임워크를 사용

•

데이터 처리를 위한 EMR 클러스터(수십 ~ 수백 대의 EC2 인스턴스)를 자동으로 구성하고 확장 및 축소하는 기능을 함

•

머신러닝, 빅데이터 처리 등에 사용

Master Node (마스터 노드)

•

클러스터 전체를 관리하는 노드

•

코어노드 또는 태스크노드에 처리를 부여한다

Core Node (코어 노드)

•

연산 처리를 실행하는 노드

•

데이터를 보관하는 파일시스템 HDFS(Hadoop Distributed File System)를 갖는다.

Task Node (태스크 노드) (optional)

•

코어노드와 같이 연산처리를 한다.

•

파일시스템을 갖지 않는다. 연산처리 전용의 노드이다.

 클러스터의 코어노드 또는 태스크노드는 수동 또는 자동으로 스케일링할 수 있다.

•

Hadoop의 파일 시스템이다.

•

EMR에서 마스터노드와 코어노드에서 사용 가능

•

EMR 클러스터가 종료되면 HDFS의 데이터는 사라진다.

•

Amazon S3를 EMR 클러스터에서 파일 시스템으로 사용할 수 있도록 하는 기능

•

데이터를 영원히 보관하여 EMR 클러스터가 종료되어도 데이터는 사리 지지 않음

•

S3가 갖는 기능(데이터 암호화등)도 같이 사용가능