목차
📌 월배치 vs 일배치 구분 기준
월배치와 일배치를 나누는 기준은 여러 가지가 있지만, *날짜 컬럼이 월(YYYYMM)인지 일(YYYYMMDD)인지"보다는 "데이터 건수, 처리 속도, 활용 목적"을 중심으로 결정하는 것이 더 적절합니다.
1. 고려해야 할 주요 요소
🔹 1) 데이터 처리량 (건수 기준)
- 건수가 많으면 → 월 배치
- 대량 데이터를 일 단위로 처리하면 I/O 부하 증가, 성능 저하 발생 가능.
- 데이터 적재 및 분석이 월 단위로 필요한 경우 월 배치가 효율적.
- 예: 로그 데이터, 트랜잭션 데이터, 매출 집계
- 건수가 적으면 → 일 배치
- 적은 데이터를 월 단위로 모아서 처리하면 실시간 분석 어려움.
- 매일 변화가 있는 데이터라면 일 배치가 적절.
- 예: 주문 내역, 재고 변동, 일별 고객 데이터
🔹 2) 데이터 활용 방식
- 월 단위로 분석하는 데이터 → 월 배치
- 예: 매출, 비용, 고객 수, 재고 변화 등
- 장점: 월 단위 집계 후 처리 속도 빠름.
- 단점: 실시간 분석 어려움.
- 일 단위로 모니터링이 필요한 데이터 → 일 배치
- 예: 하루 주문량, 실시간 트랜잭션, 고객 행동 분석
- 장점: 빠른 대응 가능.
- 단점: 처리량이 많을 경우 성능 부담.
🔹 3) 저장 및 처리 비용 (I/O 고려)
- 월 배치는 데이터가 한번에 처리되므로 스토리지 및 네트워크 부담 감소.
- 일 배치는 매일 처리하므로 I/O가 많아지고, 데이터 적재 비용 증가 가능.
대량 데이터는 월 배치, 적은 데이터는 일 배치가 적절함.
🚀 결론: 어떤 기준으로 구분하는 것이 좋을까?
구분 월배치(YYYYMM) 일배치(YYYYMMDD)
건수 | 많음 (대량 데이터) | 적음 (소량 데이터) |
사용 목적 | 월별 보고서, 트렌드 분석 | 실시간 모니터링, 이벤트 분석 |
처리 부담 | 배치 주기가 길어 성능 부담 낮음 | 매일 실행하므로 성능 부담 가능 |
예시 데이터 | 매출 집계, 고객 수 분석 | 주문 데이터, 실시간 이벤트 로그 |
👉 결론: "데이터 건수"를 기준으로 나누는 것이 더 적절함.
- 날짜 형식(YYYYMM vs YYYYMMDD)보다는 데이터 양과 활용 방식이 더 중요한 기준.
- 건수가 많고, 월별 분석이 필요하면 월 배치.
- 건수가 적고, 일별 모니터링이 필요하면 일 배치.
데이터 특성을 보고 적절하게 결정하면 성능과 비용을 최적화할 수 있습니다!
'BI > ETL' 카테고리의 다른 글
SAP 테이블을 하둡으로 이관할 때 '.append', '.include'도 이관해야 되나? (0) | 2025.05.16 |
---|---|
SAP BusinessObjects 에 대해 파헤쳐보자 - Universe, Dataservice, Dataflow 개념 (0) | 2025.04.14 |
SAP Data Services Designer란? (0) | 2025.03.21 |
SAP 테이블을 하둡으로 이관할 때 예약어로 생기는 오류 처리 (0) | 2025.03.11 |
Oozie, HUE, Airflow의 차이점 (2) | 2024.12.11 |