데이터 파이프라인 핵심 가이드

2 분 소요

책 소개

이 책에서는 데이터 분석을 위한 인프라 구축 중 데이터 파이프라인 구축에 대해 설명합니다. 데이터 파이프라인 구축에 사용되는 기본적인 방법과 용어 설명, 그리고 각 단계 별로 많이 사용되는 오픈소스에 대한 설명이 잘 되어있습니다. 이 책을 읽고나면 데이터 파이프라인 패턴인 ETL과 ELT, 각 상황에 따른 데이터 추출 방법, 클라우드 기반의 파이프라인 구축과 Airflow 기반의 오케스트레이션 등에 대해 빠르게 훑어볼 수 있습니다.

리뷰

데이터 기반의 인프라 설계는 다른 백엔드 아키텍처 등의 설계와는 다르게 알아야하는 솔루션이 정말 많습니다. 요구사항에 따른 데이터베이스 선택을 시작으로 데이터(로그) 수집기, 메시지 큐, 질의처리기, 오케스트레이터, 모니터링 시스템 등의 필요성을 알아야하고 각 기능 별로 존재하는 솔루션 혹은 오픈소스의 종류와 각각의 장단점을 알고 요구사항에 맞춰 올바른 선택을 할 수 있어야합니다. 혼자서 공부하기에는 Kafka, Airflow, Spark 등의 오픈소스와 Redshift, BigQuery, Snowflake 등의 클라우드 서비스 이름들이 상당히 생소하고 막연하게 다가올 수 있습니다. 이 책을 읽으면 데이터 기반의 인프라 설계에 필요한 단계와 주로 사용되는 오픈소스, 클라우드 서비스를 알 수 있어 막연했던 부분을 점차 알아갈 수 있습니다.

저의 입장에서 전반적인 부분을 알게되어 각 기능 별 오픈소스에 대해 깊게 공부를 하게되는 계기가 되었습니다. 덕분에 전반적인 큰 그림에 대해 알 수 있었습니다. 하지만 책을 읽을 때 다소 딱딱한 번역과 오타로 빠르게 훑어보기에는 한국어도 한 번 더 번역하듯이 읽게되어 아쉬운 부분이 있었습니다. 개인적으로는 첫 접근으로 이 책을 읽기보다는 다른 유사한 책을 먼저 한 권이라도 읽고 나서 보기를 추천합니다.

댓글남기기