박효주

Generalist를 꿈꾸는 개발자입니다 😄

Hadoop과 Hive, Presto 핵심 요약

September 25, 2022 1 분 소요

hadoop icon

Hadoop (데이터 저장 및 조회)

대량의 데이터를 분산 저장 및 처리할 수 있도록 해주는 프레임워크
단일 소프트웨어가 아닌 분산 시스템을 구성하는 아래 3가지 소프트웨어로 구성된 집합체
- HDFS(Hadoop Distributed File System): 분산 파일 시스템
- YARN(Yet Another Resource Negotiator): 리소스 관리자
- MapReduce: 분산 데이터 처리
HDFS를 통해 데이터를 디스크에 저장, YARN을 통해 데이터를 분산 저장

hive icon

Hive (대량의 데이터 처리에 특화된 쿼리 엔진)

SQL같은 쿼리 언어를 Hadoop에서 실행하기 위해 개발
- 쿼리를 자동으로 MapReduce 프로그램으로 변환 (HiveQL)
대량의 배치 처리를 하기 위한 시스템
- 대량의 데이터를 처리하는 작업에 적합하나, 몇 초 안에 끝나버리는 소량의 데이터 처리 혹은 에드 혹 쿼리(필요할 때 마다 조회하는)에는 적합하지 않음
데이터 웨어하우스에 적합

presto icon

Presto (속도에 특화된 대화식 쿼리 엔진)

Hive에서 만든 데이터를 집계하는 등의 목적에 적합
- Hive Metastore에 등록된 테이블을 가져올 수 있기 때문
인메모리 기반 처리
대량의 쿼리를 실행하지 않도록 주의
- 한 번 쿼리를 실행하면 중간에 끼어들 수 없기 때문
Impala로 대체해서 사용 가능

공유하기

Twitter Facebook LinkedIn

댓글남기기

참고

ArgoCD의 App of Apps 패턴

March 3, 2024 2 분 소요

ArgoCD는 쿠버네티스를 위한 대표적인 선언적, GitOps 기반의 CD(Continuous Delivery) 도구입니다. 배포할 쿠버네티스 서비스의 deployment, service, ingress 등을 정의하고 서비스 Repository에서 GitOps 기반의 배포 파이프라...

Airflow에서 KubernetesPodOperator로 kubectl image 쉽게 사용하는 방법

February 22, 2024 최대 1 분 소요

Airflow 파이프라인에서 kubectl을 이용해서 deployment rollout을 해야할 상황이 생겼습니다. 여러 방법을 고민해보다 KubernetesPodOperator와 Secret을 이용하면 쉽게 할 수 있어서 그 방법을 정리합니다.

DataHub로 데이터를 한 곳에 정리하고 모아보기

January 6, 2024 5 분 소요

2024년 및 글또 9기를 잘 보내기 위한 목표 및 계획

December 10, 2023 4 분 소요

2023년도 간단한 회고