EMR
•
클라우드 빅데이터 플랫폼
•
MapReduce는 분산 병렬처리 컴퓨팅 모델의 이름
•
EMR은 빅데이터 플랫폼인 Hadoop 클러스터를 손쉽게 생성해 주는 서비스
•
Apache Spark, Apache Hive 및 Presto와 같은 오픈 소스 프레임워크를 사용
•
데이터 처리를 위한 EMR 클러스터(수십 ~ 수백 대의 EC2 인스턴스)를 자동으로 구성하고 확장 및 축소하는 기능을 함
•
머신러닝, 빅데이터 처리 등에 사용
EMR 구조
Master Node (마스터 노드)
•
클러스터 전체를 관리하는 노드
•
코어노드 또는 태스크노드에 처리를 부여한다
Core Node (코어 노드)
•
연산 처리를 실행하는 노드
•
데이터를 보관하는 파일시스템 HDFS(Hadoop Distributed File System)를 갖는다.
Task Node (태스크 노드) (optional)
•
코어노드와 같이 연산처리를 한다.
•
파일시스템을 갖지 않는다. 연산처리 전용의 노드이다.
HDFS (Hadoop Distributed File System)
•
Hadoop의 파일 시스템이다.
•
EMR에서 마스터노드와 코어노드에서 사용 가능
•
EMR 클러스터가 종료되면 HDFS의 데이터는 사라진다.
EMRFS (EMR File System)
•
Amazon S3를 EMR 클러스터에서 파일 시스템으로 사용할 수 있도록 하는 기능
•
데이터를 영원히 보관하여 EMR 클러스터가 종료되어도 데이터는 사리 지지 않음
•
S3가 갖는 기능(데이터 암호화등)도 같이 사용가능





