Athena

•

표준 SQL을 사용해 S3에 저장된 데이터를 분석할 수 있는 쿼리 서비스

•

AWS의 서버리스(fully managed)의 데이터 분석 서비스 

•

Athena로 데이터를 로드 할 필요 없이 S3에 저장된 데이터를 직접 사용

•

CSV, JSON, ORC, Avro, Parquet와 같은 다양한 종류의 데이터 형식을 지원

◦

S3에 CSV 데이터 파일을 저장하여 Athena를 사용해 SQL 쿼리를 하는 비용 효율적인 솔루션 구축

◦

(대규모 데이터일 경우, CSV 파일을 Parquet 또는 ORC로 변환하여 Athena로 분석하는 것이 효율성이 좋다)

•

Athena 연합 쿼리를 사용하여 CloudWatch Logs, DynamoDB, DocumentDB, RDS, JDBC 호환 관계형 데이터 베이스와 같은 데이터 원본에 저장된 데이터에 대해 SQL 쿼리 수행 가능

•

QuickSight와 통합하여 쿼리된 데이터를 시각화 할 수 있음

•

데이터 분석 서비스로는 Amazon EMR이나 Amazon Redshift 등이 있지만, 이들 모두 귀찮고 힘든 인프라 관리를 필요로 한다. 

•

반면, Athena는 이러한 고려 없이 빠르게 쿼리를 통한 분석을 하고자 할 때 적합한다.

•

데이터를 S3에 저장하고, Athena를 통해 직접 SQL 쿼리를 실행하기

•

예시) S3에 csv를 저장되어 있다면 Athena의 Console에서 csv 파일을 지정하는 쿼리 실행 가능

•

사용자가 쿼리를 실행한 데이터 양에 따라 비용을 지불한다. (사용한 만큼만 지불)

•

스캔한 데이터의 1TB 당 5 USD

•

동적 스키마 (스키마를 미리 정의할 필요가 없다)

◦

Athena는 스키마-온-리드(Schema-on-Read) 방식을 사용한다. 

◦

이는 데이터를 읽을 때 스키마를 적용하는 방식으로, 다양한 형식의 데이터를 유연하게 처리할 수 있다.

•

S3에 쿼리 결과 저장

◦

Athena는 쿼리 결과를 S3에 자동으로 저장한다.

◦

기본적으로 Athena는 쿼리 결과를 S3 버킷의 /AWSLogs/Athena디렉토리에 저장한다.