'Data Engineering/Kafka' 카테고리의 글 목록 :: gnuykob_sw

Data Engineering/Kafka

[Inflearn] 아파치 카프카 개요와 토픽 2023.06.22

[Inflearn] 아파치 카프카 개요와 토픽

2023. 6. 22. 22:24

https://www.inflearn.com/course/아파치-카프카-입문/dashboard

🪼 카프카란 무엇인가

카프카 이전

데이터를 전송하는 소스 애플리케이션과 데이터를 받는 타겟 애플리케이션
처음에는 단방향 통신
시간이 지나면서 소스 애플리케이션과 타겟 애플리케이션이 많아지면서 데이터를 조성하는 라인이 매우 복잡해짐
소스 애플리케이션과 타겟 애플리케이션이 많아질수록 데이터 라인도 많아짐 -> 배포와 장애에 대응 어려움
데이터를 전송할 때 프로토콜 포맷의 파편화 심해짐 -> 유지보수 매우 어려워짐

kafka 탄생

kafka: 이러한 복잡함 해결하기 위한 오픈소스 프로그램
소스 애플리케이션과 타겟 애플리케이션의 커플링을 약하게 하기 위해 개발됨
소스 애플리케이션 -> kafka -> 타겟 애플리케이션

스크린샷 2023-04-14 오전 7 31 40

소스 애플리케이션에서 보낼 수 있는 데이터 포맷은 거의 제한이 없음
카프카의 Topic
- 각종 데이터를 담음
- Queue
- 큐에 데이터를 넣는 Producer
- 큐에서 데이터를 가져가는 Consumer
Producer와 Consumer는 라이브러리로 되어 있어 애플리케이션에서 구현 가능

고가용성 -> 데이터 손실 없이 복구 가능
낮은 지연과 높은 처리량을 통해 효과적으로 빅데이터 처리 가능

🪼 카프카 토픽

토픽: 데이터가 들어가는 공간
여러개 생성 가능
DB의 테이블이나 파일시스템의 폴더와 유사한 성질
토픽에 프로듀서가 데이터를 넣고, 컨슈머가 데이터 가져감
목적에 따라 이름을 가질 수 있음
- 클릭로그, send sms, location log 등과 같이 무슨 데이터를 담는지 명확하게 명시

카프카 토픽 내부

하나의 토픽은 여러 개의 파티션으로 구성
파티션 번호는 0번부터 시작
하나의 파티션은 Queue와 같이 데이터가 파티션 끝부터 쌓임

파티션 1개

스크린샷 2023-04-14 오전 8 17 44

컨슈머는 0번째부터 데이터 가져감
컨슈머가 데이터를 가져가더라도 데이터는 삭제되지 않음
파티션에 남은 데이터는 새로운 컨슈머가 붙었을 때 0번부터 또 가져갈 수 있음
- 컨슈머 그룹이 달라야 함
- auto.offset.reset = earlieat로 설정
- 동일 데이터를 두 번 처리할 수 있음

파티션 2개

스크린샷 2023-04-14 오전 8 21 26

데이터가 들어갈 경우 들어갈 파티션 key를 지정할 수 있음
- key가 null인 경우 라운드 로빈으로 할당
- key가 있고, 기본 파티셔너를 사용할 경우 키의 해시값을 구하고, 특정 파티션에 할당

파티션을 늘리는건 가능하지만, 다시 줄일 수는 없기 때문에 주의해서 늘려야 함!
늘리는 이유: 파티션을 늘리면 컨슈머의 개수를 늘려서 데이터 처리를 분산시킬 수 있음

데이터 삭제되는 시간은 옵션에 따라 다름
레코드가 저장되는 최대 시간과 크기 지정 가능
- log.retention.ms: 최대 레코드 보존 시간
- log.retention.byte: 최대 레코드 보존 크기(byte)

저작자표시 비영리 변경금지 (새창열림)

PREV 이전 1 NEXT 다음

+ Recent posts

Powered by Tistory, Designed by wallel

티스토리툴바