Athena
•
표준 SQL을 사용해 S3에 저장된 데이터를 분석할 수 있는 쿼리 서비스
•
AWS의 서버리스(fully managed)의 데이터 분석 서비스
•
Athena로 데이터를 로드 할 필요 없이 S3에 저장된 데이터를 직접 사용
•
CSV, JSON, ORC, Avro, Parquet와 같은 다양한 종류의 데이터 형식을 지원
◦
S3에 CSV 데이터 파일을 저장하여 Athena를 사용해 SQL 쿼리를 하는 비용 효율적인 솔루션 구축
◦
(대규모 데이터일 경우, CSV 파일을 Parquet 또는 ORC로 변환하여 Athena로 분석하는 것이 효율성이 좋다)
•
Athena 연합 쿼리를 사용하여 CloudWatch Logs, DynamoDB, DocumentDB, RDS, JDBC 호환 관계형 데이터 베이스와 같은 데이터 원본에 저장된 데이터에 대해 SQL 쿼리 수행 가능
•
QuickSight와 통합하여 쿼리된 데이터를 시각화 할 수 있음
사용 이유
•
데이터 분석 서비스로는 Amazon EMR이나 Amazon Redshift 등이 있지만, 이들 모두 귀찮고 힘든 인프라 관리를 필요로 한다.
•
반면, Athena는 이러한 고려 없이 빠르게 쿼리를 통한 분석을 하고자 할 때 적합한다.
주요 기능
•
데이터를 S3에 저장하고, Athena를 통해 직접 SQL 쿼리를 실행하기
•
예시) S3에 csv를 저장되어 있다면 Athena의 Console에서 csv 파일을 지정하는 쿼리 실행 가능
비용
•
사용자가 쿼리를 실행한 데이터 양에 따라 비용을 지불한다. (사용한 만큼만 지불)
•
스캔한 데이터의 1TB 당 5 USD
Amazon Athena 참고 기능
•
동적 스키마 (스키마를 미리 정의할 필요가 없다)
◦
Athena는 스키마-온-리드(Schema-on-Read) 방식을 사용한다.
◦
이는 데이터를 읽을 때 스키마를 적용하는 방식으로, 다양한 형식의 데이터를 유연하게 처리할 수 있다.
•
S3에 쿼리 결과 저장
◦
Athena는 쿼리 결과를 S3에 자동으로 저장한다.
◦
기본적으로 Athena는 쿼리 결과를 S3 버킷의 /AWSLogs/Athena디렉토리에 저장한다.



