AWS Redshift

../main.png

  • Redshift는 PostgreSQL 기반의 데이터베이스이다.
  • OLAP에 특화되었다.
  • 지속적 로드가 아닌 1시간 단위 로드
  • 데이터 분석 및 컴퓨팅
  • 열 기반 스토리지
  • QuickSight 및 Tableau와의 통합
  • 대시보드를 통한 분석 및 시각화
  • 서버리스

Redshift의 주요 특징

1. 높은 확장성

Redshift는 클러스터의 크기를 쉽게 조정할 수 있어 데이터가 증가해도 성능 저하 없이 확장이 가능하다. 필요에 따라 노드를 추가하거나 제거할 수 있다.

2. 빠른 쿼리 성능

Redshift는 데이터 웨어하우스 전용으로 설계되어 빠른 쿼리 성능을 제공한다. 데이터 압축, 컬럼형 저장소, 쿼리 최적화 등의 기술을 활용해 대량의 데이터를 빠르게 처리할 수 있다.

3. 복제 및 백업

Redshift는 자동으로 데이터 복제 및 백업을 제공하여 데이터의 안전성을 높인다. 스냅샷 기능을 사용하면 데이터의 특정 시점 상태를 저장하고, 필요 시 복원할 수 있다.

Redshift 사용 방법

1. 클러스터 생성

AWS Management Console을 사용하여 Redshift 클러스터를 생성할 수 있다. 클러스터 생성 시 필요한 노드 수, 인스턴스 유형, 보안 설정 등을 지정할 수 있다.

2. 데이터 로드

Redshift에 데이터를 로드하는 방법은 여러 가지가 있다. 가장 일반적인 방법은 AWS S3 버킷에 데이터를 업로드한 후, COPY 명령어를 사용하여 데이터를 Redshift 테이블로 로드하는 것이다.

COPY table_name
FROM 's3://bucket-name/file-path'
IAM_ROLE 'arn:aws:iam::account-id:role/role-name'
FORMAT AS CSV;

3. 쿼리 및 분석

데이터 로드 후, SQL을 사용하여 데이터를 쿼리하고 분석할 수 있다. Redshift는 표준 SQL을 지원한다.

SELECT column1, column2
FROM table_name
WHERE condition;