Search

Athena

Athena
표준 SQL을 사용해 S3에 저장된 데이터를 분석할 수 있는 쿼리 서비스
AWS의 서버리스(fully managed)의 데이터 분석 서비스 
Athena로 데이터를 로드 할 필요 없이 S3에 저장된 데이터를 직접 사용
CSV, JSON, ORC, Avro, Parquet와 같은 다양한 종류의 데이터 형식을 지원
S3에 CSV 데이터 파일을 저장하여 Athena를 사용해 SQL 쿼리를 하는 비용 효율적인 솔루션 구축
(대규모 데이터일 경우, CSV 파일을 Parquet 또는 ORC로 변환하여 Athena로 분석하는 것이 효율성이 좋다)
Athena 연합 쿼리를 사용하여 CloudWatch Logs, DynamoDB, DocumentDB, RDS, JDBC 호환 관계형 데이터 베이스와 같은 데이터 원본에 저장된 데이터에 대해 SQL 쿼리 수행 가능
QuickSight와 통합하여 쿼리된 데이터를 시각화 할 수 있음

사용 이유

데이터 분석 서비스로는 Amazon EMR이나 Amazon Redshift 등이 있지만, 이들 모두 귀찮고 힘든 인프라 관리를 필요로 한다.
반면, Athena는 이러한 고려 없이 빠르게 쿼리를 통한 분석을 하고자 할 때 적합한다.

주요 기능

데이터를 S3에 저장하고, Athena를 통해 직접 SQL 쿼리를 실행하기
예시) S3에 csv를 저장되어 있다면 Athena의 Console에서 csv 파일을 지정하는 쿼리 실행 가능

비용

사용자가 쿼리를 실행한 데이터 양에 따라 비용을 지불한다. (사용한 만큼만 지불)
스캔한 데이터의 1TB 당 5 USD

Amazon Athena 참고 기능

동적 스키마 (스키마를 미리 정의할 필요가 없다)
Athena는 스키마-온-리드(Schema-on-Read) 방식을 사용한다.
이는 데이터를 읽을 때 스키마를 적용하는 방식으로, 다양한 형식의 데이터를 유연하게 처리할 수 있다.
S3에 쿼리 결과 저장
Athena는 쿼리 결과를 S3에 자동으로 저장한다.
기본적으로 Athena는 쿼리 결과를 S3 버킷의 /AWSLogs/Athena디렉토리에 저장한다.