Learning (Jinseung Yu)
/
AWS Korea worldskills
/
ETL Pipeline
/
예상 시나리오
Search
예상 시나리오
1.
위 쪽은 데이터 다 수집해서 딥하게 분석해서 s3에 보관 (Lambda는 데이터 변환 용도로 사용할듯)
2.
아래쪽은 실시간 처리해서 시각화하는게 목적. 단, 이상하게들어오는 데이터들(이게 비정형 데이터)은 Glue에서 포맷에 맞게 포매팅하기
공부 해야할 것
•
Apache Flink에서 Lambda 연동하는 법 (Kinesis Output Stream을 트리거로 하는 Lambda 구성)
•
Glue 커스텀 분류기
•
Dynamic Partitioning
•
Apache Flink Application
•
S3 → Glue → S3