[빅데이터를 지탱하는 기술] 1장 빅데이터의 기초 지식

조재구리 2026. 2. 20. 10:34

2026. 2. 20. 10:34

Chapter 1

빅데이터의 기초 지식

📑 목차

1. 빅데이터란? Hadoop과 NoSQL

2. 데이터 파이프라인과 수집 방법

3. 데이터 처리: 스트림 vs 배치

4. 데이터 웨어하우스 · 데이터 레이크 · 데이터 마트

5. 데이터 분석의 종류와 목적

6. 핵심 요약 정리

빅데이터란? Hadoop과 NoSQL

"빅데이터"라는 용어가 본격적으로 사용되기 시작한 것은 2011~2012년 사이입니다. 이 시기부터 많은 기업들이 데이터를 효과적으로 처리하기 위해 분산 시스템을 도입하기 시작했습니다.

하지만 빅데이터를 다루는 건 쉽지 않습니다. 데이터 분석 방법을 모르거나, 처리에 엄청난 시간과 노력이 필요하기 때문이죠. 그래서 등장한 핵심 기술이 바로 Hadoop과 NoSQL입니다.

Hadoop이란?

💡 비유로 이해하기

혼자서 1000페이지짜리 책을 읽으면 오래 걸리지만, 100명이 10페이지씩 나눠 읽으면 순식간에 끝나잖아요? Hadoop은 이런 원리입니다. 여러 대의 컴퓨터가 데이터를 나눠서 동시에 처리하는 분산 시스템이에요.

📌 Hadoop의 핵심 특징

✔ 데이터를 병렬로 처리하여 빠른 분석 가능
✔ 저비용으로 대량의 데이터를 저장할 수 있음
✔ SQL 분석을 위해 Hive가 개발됨 → 비개발자도 쉽게 데이터 조회 가능
✔ Google의 MapReduce 개념을 기반으로 개발됨

NoSQL이란?

NoSQL은 "Not Only SQL"의 약자로, 기존의 관계형 데이터베이스(RDBMS)와 다른 특성을 가진 데이터베이스입니다. 더 유연한 데이터 모델을 사용하여 빠른 읽기/쓰기 성능을 보장합니다.

🔑

Key-Value Store

단순한 키-값 구조
예: Redis

📄

Document Store

JSON 형태로 저장
예: MongoDB

📊

Wide-Column Store

확장성 높은 다중 키 구조
예: Cassandra

NoSQL + Hadoop = 최강 조합

🗄️ NoSQL
데이터 저장 & 실시간 처리 + 🐘 Hadoop
대규모 데이터 분석 = 🚀 효율적 빅데이터 처리

데이터 파이프라인과 수집 방법

데이터 파이프라인이란 데이터를 수집 → 처리 → 저장하는 일련의 과정입니다. 처음에는 간단한 수집만으로 충분하지만, 분석의 필요성이 커지면 점점 더 복잡한 시스템이 필요해집니다.

💡 비유로 이해하기

데이터 파이프라인은 정수기의 필터 시스템과 같습니다. 수돗물(원본 데이터)이 여러 단계의 필터(처리 과정)를 거쳐 깨끗한 물(분석 가능한 데이터)로 바뀌는 거죠. 필터가 많아질수록 물은 더 깨끗해지지만, 시스템은 더 복잡해집니다.

두 가지 데이터 수집 방법

📦

벌크(Bulk) 처리

기존에 저장된 데이터를 일정 주기로 한꺼번에 가져오는 방식

예: DB에서 정기적으로 데이터 추출

🌊

스트리밍(Streaming) 처리

실시간으로 생성되는 데이터를 지속적으로 전송하는 방식

예: 모바일 앱 이벤트 로그, IoT 센서

데이터 처리: 스트림 vs 배치

수집된 데이터를 처리하는 방법은 크게 두 가지로 나뉩니다. 어떤 방식을 선택하느냐에 따라 시스템의 성격이 완전히 달라집니다.

⚡ 스트림 처리

실시간으로 데이터를 분석하여 즉각적인 대응 가능

예: 실시간 검색 추천, 이상 거래 탐지

⏰ 배치 처리

일정량의 데이터를 모아 한꺼번에 분석

예: 하루치 거래 데이터 집계, 월간 보고서

💡 비유로 이해하기

스트림 처리는 뷔페 식당에서 손님이 올 때마다 바로바로 요리를 만드는 것이고, 배치 처리는 단체 급식처럼 정해진 시간에 대량으로 한꺼번에 만드는 것입니다.

분산 스토리지와 처리 프레임워크

데이터를 저장하는 방법과 처리하는 도구를 정리하면 다음과 같습니다:

💾 저장 방법

✔ 객체 스토리지 (예: Amazon S3)

✔ NoSQL DB (빠른 읽기/쓰기)

✔ HDFS (Hadoop 분산 파일 시스템)

⚙️ 처리 도구

✔ MapReduce (병렬 처리)

✔ Hive (SQL로 Hadoop 데이터 조회)

✔ Spark (Hadoop보다 빠른 분석)

데이터 웨어하우스 · 데이터 레이크 · 데이터 마트

데이터를 어디에, 어떻게 저장하느냐에 따라 크게 세 가지 개념으로 나뉩니다. 이 세 가지를 이해하면 데이터 아키텍처의 큰 그림이 보입니다.

데이터 웨어하우스 (DW)

💡 비유로 이해하기

데이터 웨어하우스는 도서관의 서고와 같습니다. 모든 책(데이터)이 분류 체계에 맞게 정리 정돈되어 있어서 필요한 책을 쉽게 찾을 수 있지만, 새 책을 넣을 때는 반드시 분류 기준에 맞춰야 합니다.

📌 전형적인 사용 방법

업무 시스템에서 꺼낸 데이터를 하루가 끝날 때 정리하여 저장(ETL)하고, 이를 야간에 집계해서 보고서를 작성합니다. 대량의 데이터를 장기 보존하는 데 최적화되어 있지만, 소량의 데이터를 자주 읽고 쓰는 데는 적합하지 않습니다.

📁 데이터 소스
RDB, 파일 서버 → ⚙️ ETL 프로세스
추출·변환·적재 → 🏛️ 웨어하우스
정리된 데이터 보관 → 📊 데이터 마트
분석용 추출

데이터 레이크

💡 비유로 이해하기

데이터 레이크는 거대한 창고와 같습니다. 가구든, 옷이든, 전자제품이든 형태에 상관없이 일단 다 쌓아두고, 나중에 필요할 때 꺼내서 정리하는 방식이에요. 웨어하우스처럼 미리 분류할 필요가 없습니다.

데이터 레이크에는 모든 데이터를 원래의 형태 그대로 축적합니다. CSV, JSON 등 범용적인 텍스트 형식이 주로 사용됩니다. 데이터 레이크 자체는 단순한 스토리지이므로, 분석을 위해서는 MapReduce 같은 분산 처리 기술이 필요합니다.

데이터 마트

데이터 웨어하우스는 중요한 시스템이라 함부로 사용하면 과부하가 생길 수 있습니다. 그래서 분석 목적에 필요한 데이터만 뽑아서 따로 만드는 것이 데이터 마트입니다. BI 도구와 결합해서 데이터를 시각화하는 데에도 사용됩니다.

🏛️

웨어하우스

정리된 데이터 보관
먼저 설계 → 투입

🌊

데이터 레이크

원본 그대로 축적
일단 저장 → 나중에 가공

🎯

데이터 마트

분석용 부분 추출
필요한 것만 뽑아서 활용

데이터 분석의 종류와 목적

데이터 엔지니어 vs 데이터 분석가

🔧

데이터 엔지니어

데이터 시스템을 구축 및 자동화
파이프라인을 만드는 사람

📈

데이터 분석가

데이터를 분석하고 인사이트 도출
정리된 데이터를 활용하는 사람

🤝 핵심 포인트

데이터 분석을 위해서는 엔지니어가 데이터를 정리하고 저장하는 과정이 필수적입니다. 아무리 뛰어난 분석가라도, 데이터가 엉망이면 좋은 인사이트를 뽑아낼 수 없어요.

데이터 분석의 3가지 목적

🔍

데이터 검색

특정 데이터를 빠르게 찾기
예: 고객 행동 로그 검색

⚙️

데이터 가공

분석·예측을 위한 변환
예: 고객 맞춤 추천 시스템

📊

데이터 시각화

이해하기 쉽게 표현
예: 매출 추이 그래프

탐색적 분석(EDA) vs 확증적 분석(CDA)

🧭 탐색적 분석 (EDA)

데이터를 직접 보며 패턴을 찾아가는 방식. "이 데이터에서 뭔가 재미있는 게 있을까?" 하고 탐험하듯 분석합니다.

🎯 확증적 분석 (CDA)

가설을 세우고 통계적으로 검증하는 방식. "A가 B에 영향을 줄 것이다"라는 가설을 데이터로 증명합니다.

🔄 실무에서의 흐름

보통 EDA로 데이터 패턴을 파악한 후, CDA를 활용하여 인사이트를 도출합니다. 탐험 → 검증의 순서로 진행되는 거죠!

SUMMARY

핵심 요약 정리 ✨

✓

Hadoop은 여러 컴퓨터로 데이터를 나눠서 처리하고, NoSQL은 유연하고 빠른 데이터 저장을 담당합니다.

✓

데이터 수집은 벌크(한꺼번에)와 스트리밍(실시간), 처리는 배치와 스트림으로 나뉩니다.

✓

웨어하우스는 정리된 보관소, 레이크는 원본 창고, 마트는 분석용 미니 매장입니다.

✓

ETL 프로세스를 통해 데이터를 추출·변환·적재하여 분석 가능한 형태로 만듭니다.

✓

분석은 EDA(탐색)로 패턴을 찾고, CDA(검증)로 인사이트를 확인하는 흐름입니다.

'책 리뷰 > 빅데이터를 지탱하는 기술' 카테고리의 다른 글

[빅데이터를 지탱하는 기술] 6장 빅데이터 분석 기반의 구축 (0)	2026.02.20
[빅데이터를 지탱하는 기술] 5장 빅데이터의 파이프라인 (0)	2026.02.20
[빅데이터를 지탱하는 기술] 4장 빅데이터의 축적 (0)	2026.02.20
[빅데이터를 지탱하는 기술] 3장 빅데이터의 분산 처리 (0)	2026.02.20
[빅데이터를 지탱하는 기술] 2장 빅데이터의 탐색 (0)	2026.02.20

조재구리님의 블로그

[빅데이터를 지탱하는 기술] 1장 빅데이터의 기초 지식

빅데이터의 기초 지식

빅데이터란? Hadoop과 NoSQL

Hadoop이란?

NoSQL이란?

NoSQL + Hadoop = 최강 조합

데이터 파이프라인과 수집 방법

두 가지 데이터 수집 방법

데이터 처리: 스트림 vs 배치

분산 스토리지와 처리 프레임워크

데이터 웨어하우스 · 데이터 레이크 · 데이터 마트

데이터 웨어하우스 (DW)

데이터 레이크

데이터 마트

데이터 분석의 종류와 목적

데이터 엔지니어 vs 데이터 분석가

데이터 분석의 3가지 목적

탐색적 분석(EDA) vs 확증적 분석(CDA)

핵심 요약 정리 ✨

'책 리뷰 > 빅데이터를 지탱하는 기술' 카테고리의 다른 글

+ Recent posts

티스토리툴바