Chapter 1
빅데이터의 기초 지식
📑 목차
1. 빅데이터란? Hadoop과 NoSQL
2. 데이터 파이프라인과 수집 방법
3. 데이터 처리: 스트림 vs 배치
4. 데이터 웨어하우스 · 데이터 레이크 · 데이터 마트
5. 데이터 분석의 종류와 목적
6. 핵심 요약 정리
01
빅데이터란? Hadoop과 NoSQL
"빅데이터"라는 용어가 본격적으로 사용되기 시작한 것은 2011~2012년 사이입니다. 이 시기부터 많은 기업들이 데이터를 효과적으로 처리하기 위해 분산 시스템을 도입하기 시작했습니다.
하지만 빅데이터를 다루는 건 쉽지 않습니다. 데이터 분석 방법을 모르거나, 처리에 엄청난 시간과 노력이 필요하기 때문이죠. 그래서 등장한 핵심 기술이 바로 Hadoop과 NoSQL입니다.
Hadoop이란?
💡 비유로 이해하기
혼자서 1000페이지짜리 책을 읽으면 오래 걸리지만, 100명이 10페이지씩 나눠 읽으면 순식간에 끝나잖아요? Hadoop은 이런 원리입니다. 여러 대의 컴퓨터가 데이터를 나눠서 동시에 처리하는 분산 시스템이에요.
📌 Hadoop의 핵심 특징
✔ 데이터를 병렬로 처리하여 빠른 분석 가능
✔ 저비용으로 대량의 데이터를 저장할 수 있음
✔ SQL 분석을 위해 Hive가 개발됨 → 비개발자도 쉽게 데이터 조회 가능
✔ Google의 MapReduce 개념을 기반으로 개발됨
NoSQL이란?
NoSQL은 "Not Only SQL"의 약자로, 기존의 관계형 데이터베이스(RDBMS)와 다른 특성을 가진 데이터베이스입니다. 더 유연한 데이터 모델을 사용하여 빠른 읽기/쓰기 성능을 보장합니다.
🔑
Key-Value Store
단순한 키-값 구조
예: Redis
📄
Document Store
JSON 형태로 저장
예: MongoDB
📊
Wide-Column Store
확장성 높은 다중 키 구조
예: Cassandra
NoSQL + Hadoop = 최강 조합
데이터 저장 & 실시간 처리 + 🐘 Hadoop
대규모 데이터 분석 = 🚀 효율적 빅데이터 처리
02
데이터 파이프라인과 수집 방법
데이터 파이프라인이란 데이터를 수집 → 처리 → 저장하는 일련의 과정입니다. 처음에는 간단한 수집만으로 충분하지만, 분석의 필요성이 커지면 점점 더 복잡한 시스템이 필요해집니다.
💡 비유로 이해하기
데이터 파이프라인은 정수기의 필터 시스템과 같습니다. 수돗물(원본 데이터)이 여러 단계의 필터(처리 과정)를 거쳐 깨끗한 물(분석 가능한 데이터)로 바뀌는 거죠. 필터가 많아질수록 물은 더 깨끗해지지만, 시스템은 더 복잡해집니다.
두 가지 데이터 수집 방법
📦
벌크(Bulk) 처리
기존에 저장된 데이터를 일정 주기로 한꺼번에 가져오는 방식
예: DB에서 정기적으로 데이터 추출
🌊
스트리밍(Streaming) 처리
실시간으로 생성되는 데이터를 지속적으로 전송하는 방식
예: 모바일 앱 이벤트 로그, IoT 센서
03
데이터 처리: 스트림 vs 배치
수집된 데이터를 처리하는 방법은 크게 두 가지로 나뉩니다. 어떤 방식을 선택하느냐에 따라 시스템의 성격이 완전히 달라집니다.
⚡ 스트림 처리
실시간으로 데이터를 분석하여 즉각적인 대응 가능
예: 실시간 검색 추천, 이상 거래 탐지
⏰ 배치 처리
일정량의 데이터를 모아 한꺼번에 분석
예: 하루치 거래 데이터 집계, 월간 보고서
💡 비유로 이해하기
스트림 처리는 뷔페 식당에서 손님이 올 때마다 바로바로 요리를 만드는 것이고, 배치 처리는 단체 급식처럼 정해진 시간에 대량으로 한꺼번에 만드는 것입니다.
분산 스토리지와 처리 프레임워크
데이터를 저장하는 방법과 처리하는 도구를 정리하면 다음과 같습니다:
💾 저장 방법
✔ 객체 스토리지 (예: Amazon S3)
✔ NoSQL DB (빠른 읽기/쓰기)
✔ HDFS (Hadoop 분산 파일 시스템)
⚙️ 처리 도구
✔ MapReduce (병렬 처리)
✔ Hive (SQL로 Hadoop 데이터 조회)
✔ Spark (Hadoop보다 빠른 분석)
04
데이터 웨어하우스 · 데이터 레이크 · 데이터 마트
데이터를 어디에, 어떻게 저장하느냐에 따라 크게 세 가지 개념으로 나뉩니다. 이 세 가지를 이해하면 데이터 아키텍처의 큰 그림이 보입니다.
데이터 웨어하우스 (DW)
💡 비유로 이해하기
데이터 웨어하우스는 도서관의 서고와 같습니다. 모든 책(데이터)이 분류 체계에 맞게 정리 정돈되어 있어서 필요한 책을 쉽게 찾을 수 있지만, 새 책을 넣을 때는 반드시 분류 기준에 맞춰야 합니다.
📌 전형적인 사용 방법
업무 시스템에서 꺼낸 데이터를 하루가 끝날 때 정리하여 저장(ETL)하고, 이를 야간에 집계해서 보고서를 작성합니다. 대량의 데이터를 장기 보존하는 데 최적화되어 있지만, 소량의 데이터를 자주 읽고 쓰는 데는 적합하지 않습니다.
RDB, 파일 서버 → ⚙️ ETL 프로세스
추출·변환·적재 → 🏛️ 웨어하우스
정리된 데이터 보관 → 📊 데이터 마트
분석용 추출
데이터 레이크
💡 비유로 이해하기
데이터 레이크는 거대한 창고와 같습니다. 가구든, 옷이든, 전자제품이든 형태에 상관없이 일단 다 쌓아두고, 나중에 필요할 때 꺼내서 정리하는 방식이에요. 웨어하우스처럼 미리 분류할 필요가 없습니다.
데이터 레이크에는 모든 데이터를 원래의 형태 그대로 축적합니다. CSV, JSON 등 범용적인 텍스트 형식이 주로 사용됩니다. 데이터 레이크 자체는 단순한 스토리지이므로, 분석을 위해서는 MapReduce 같은 분산 처리 기술이 필요합니다.
데이터 마트
데이터 웨어하우스는 중요한 시스템이라 함부로 사용하면 과부하가 생길 수 있습니다. 그래서 분석 목적에 필요한 데이터만 뽑아서 따로 만드는 것이 데이터 마트입니다. BI 도구와 결합해서 데이터를 시각화하는 데에도 사용됩니다.
🏛️
웨어하우스
정리된 데이터 보관
먼저 설계 → 투입
🌊
데이터 레이크
원본 그대로 축적
일단 저장 → 나중에 가공
🎯
데이터 마트
분석용 부분 추출
필요한 것만 뽑아서 활용
05
데이터 분석의 종류와 목적
데이터 엔지니어 vs 데이터 분석가
🔧
데이터 엔지니어
데이터 시스템을 구축 및 자동화
파이프라인을 만드는 사람
📈
데이터 분석가
데이터를 분석하고 인사이트 도출
정리된 데이터를 활용하는 사람
🤝 핵심 포인트
데이터 분석을 위해서는 엔지니어가 데이터를 정리하고 저장하는 과정이 필수적입니다. 아무리 뛰어난 분석가라도, 데이터가 엉망이면 좋은 인사이트를 뽑아낼 수 없어요.
데이터 분석의 3가지 목적
🔍
데이터 검색
특정 데이터를 빠르게 찾기
예: 고객 행동 로그 검색
⚙️
데이터 가공
분석·예측을 위한 변환
예: 고객 맞춤 추천 시스템
📊
데이터 시각화
이해하기 쉽게 표현
예: 매출 추이 그래프
탐색적 분석(EDA) vs 확증적 분석(CDA)
🧭 탐색적 분석 (EDA)
데이터를 직접 보며 패턴을 찾아가는 방식. "이 데이터에서 뭔가 재미있는 게 있을까?" 하고 탐험하듯 분석합니다.
🎯 확증적 분석 (CDA)
가설을 세우고 통계적으로 검증하는 방식. "A가 B에 영향을 줄 것이다"라는 가설을 데이터로 증명합니다.
🔄 실무에서의 흐름
보통 EDA로 데이터 패턴을 파악한 후, CDA를 활용하여 인사이트를 도출합니다. 탐험 → 검증의 순서로 진행되는 거죠!
SUMMARY
핵심 요약 정리 ✨
Hadoop은 여러 컴퓨터로 데이터를 나눠서 처리하고, NoSQL은 유연하고 빠른 데이터 저장을 담당합니다.
데이터 수집은 벌크(한꺼번에)와 스트리밍(실시간), 처리는 배치와 스트림으로 나뉩니다.
웨어하우스는 정리된 보관소, 레이크는 원본 창고, 마트는 분석용 미니 매장입니다.
ETL 프로세스를 통해 데이터를 추출·변환·적재하여 분석 가능한 형태로 만듭니다.
분석은 EDA(탐색)로 패턴을 찾고, CDA(검증)로 인사이트를 확인하는 흐름입니다.
'책 리뷰 > 빅데이터를 지탱하는 기술' 카테고리의 다른 글
| [빅데이터를 지탱하는 기술] 6장 빅데이터 분석 기반의 구축 (0) | 2026.02.20 |
|---|---|
| [빅데이터를 지탱하는 기술] 5장 빅데이터의 파이프라인 (0) | 2026.02.20 |
| [빅데이터를 지탱하는 기술] 4장 빅데이터의 축적 (0) | 2026.02.20 |
| [빅데이터를 지탱하는 기술] 3장 빅데이터의 분산 처리 (0) | 2026.02.20 |
| [빅데이터를 지탱하는 기술] 2장 빅데이터의 탐색 (0) | 2026.02.20 |