elasticsearch

5 posts

data/elasticsearch

엘라스틱서치 데이터 핸들링

엘라스틱서치 데이터 핸들링

data/elasticsearch

엘라스틱서치 인덱스 설계 2

엘라스틱서치 인덱스 설계 2 🔍 엘라스틱서치 스터디 시리즈 - Chap1. 엘라스틱서치 기본 동작 및 구조 - Chap2. 엘라스틱서치 인덱스 설계 1 - Chap3. 엘라스틱서치 인덱스 설계 2 - Chap4. 엘라스틱서치 데이터 핸들링 애널라이저와 토크나이저 필드의 데이터는 애널라이저를 통해 분석돼 여러 텀(term)으로 쪼개져 색인됩니다. 애널라이저는 다음과 같은 요소로 구성됩니다. - 0개 이상의 캐릭터 필터: 문자열을 변형시킨다. - 1개의 토크나이저: 여러 토큰으로 쪼갠다. - 0개 이상의 토큰 필터: 후처리(변형)한다. 각각에 대해 알아봅시다. analyze API 엘라스틱서치는 애널라이저와 각 구성 요소의 동작을 간편하게 테스트해볼 수 있는 API를 제공합니다. 가장 기본적인 애널라이저의 분석 결과를 확인해봅시다. 요청 예시 응답 예시 1. 캐릭터 필터 캐릭터 필터는 를 캐릭터의 스트림으로 받아서 특정한 문자를 추가, 변경, 삭제합니다. 애널라이저에는 0개 이상

data/elasticsearch

엘라스틱서치 인덱스 설계 1

엘라스틱서치 인덱스 설계 1 🔍 엘라스틱서치 스터디 시리즈 - Chap1. 엘라스틱서치 기본 동작 및 구조 - Chap2. 엘라스틱서치 인덱스 설계 1 - Chap3. 엘라스틱서치 인덱스 설계 2 - Chap4. 엘라스틱서치 데이터 핸들링 엘라스틱서치의 인덱스는 아주 세부적인 부분까지 제어 가능하고, 설정에 따라 동작과 특성이 극단적으로 달라지므로 설계가 중요합니다. 이번 챕터에서는 설정 방법 및 매핑, 필드타입 등에 대해 다룹니다. 인덱스 설정 인덱스를 생성할 때에는 인덱스의 동작에 관한 설정을 지정할 수 있습니다. 인덱스 설정을 조회하려면 인덱스 이름 뒤에 를 넣어 GET 메서드로 호출합니다. 이전 챕터에서 만들었던 를 재사용하겠습니다. 예시 요청 예시 응답 , 라는 설정이 보입니다. 이에 관해서는 후술하겠습니다. 이라는 중요한 설정이 있는데, 이 응답에는 포함되지 않았습니다. 이에 관해서도 다뤄보겠습니다. numberofshards numberofshards는 인덱스를 구성

data/elasticsearch

엘라스틱서치 기본 동작 및 구조

엘라스틱서치 기본 동작 및 구조 🔍 엘라스틱서치 스터디 시리즈 - Chap1. 엘라스틱서치 기본 동작 및 구조 - Chap2. 엘라스틱서치 인덱스 설계 1 - Chap3. 엘라스틱서치 인덱스 설계 2 - Chap4. 엘라스틱서치 데이터 핸들링 엘라스틱 서치 기본 동작 엘라스틱 서치는 REST API 기반 서치 엔진으로, 데이터의 수정/삭제 작업은 모두 Json을 기반으로 한 REST API를 통해 진행할 수 있습니다. 1. 문서 색인 를 지정하여 문서를 색인할 수 있습니다. 예시 요청 예시 응답 이때 를 지정하지 않고 문서 내용만 포함한다면, ES가 자체적으로 를 할당합니다. 예시 요청 예시 응답 💡 를 지정하지 않아 ES가 자체적으로 라는 를 생성합니다. 를 지정하지 않을 떄에는 POST 메서드를 사용해야 합니다. 2. 문서 조회 문서를 조회할때는 인덱스 이름과 id 값을 지정합니다. 예시 요청 예시 응답 결과의 필드에서 방금 색인한 문서의 내용을 확인할 수 있습니다

data/elasticsearch

ECK를 이용한 쿠버네티스 Elasticsearch 클러스터 배포

ECK를 이용한 Elasticsearch 클러스터 배포 서론 최근에 인터넷 기사에 대한 크롤링 솔루션 관련하여 개발을 진행 중에 있습니다. MySQL 및 S3을 통해 모든 크롤링 데이터 및 기사 원문을 저장하고 관리하였습니다만, 크롤링 되는 기사 수가 늘어남에 따라 더 확장성있는 아키텍처를 고민했습니다. 하루에 만 건 수십 만 건의 기사 데이터가 크롤링 되고 이를 저장하고 검색함에 있어서 다양한 문제가 야기될 것이 예상되었습니다. 기존에는 각 기사에 대한 메타데이터를 MySQL에서 관리하고, 기사 원문은 MySQL의 PK를 S3키에 포함하여 S3에 저장하고 있었는데요, 각 기사 원문에 대한 접근은 초기에는 접근이 빈번하지만 시간이 지날수록 접근 빈도가 지수적으로 감소할 것이 예상되었기 때문에 S3 지능형 관리나 Glacier를 통해 비용 문제를 해소하고자 했습니다. 이 구조는 초기에는 단순하고 확장성 있으면서 비용효율적인 접근으로 보였지만, 팀 내 논의 끝에 데이터가 급격히 증