데이터 엔지니어링의 바이블이라 할 수 있는 책 "빅데이터를 지탱하는 기술"을 학습하고 정리한 글입니다.
데이터 웨어하우스와 데이터 마트
데이터 웨어하우스는 웹 서버나 업무 시스템에서 일반적으로 이용되는 RDB와는 달리 "대량의 데이터를 장기 보존하는 것"에 최적화 되어있습니다.
정리된 데이터를 한 번에 전송하는 것은 뛰어나지만 소량의 데이터를 자주 쓰고 읽는 데는 적합하지 않습니다.
- 데이터 소스 : 업무 시스템을 위한 RDB나 로그(로우 데이터) 등을 저장하는 파일 서버
- ETL 프로세스 : 로우 데이터를 추출하고 필요에 따라 가공한 후 저장하는 과정
- 데이터 마트 : 데이터 웨어하우스에서 필요한(분석을 위한) 데이터만 추출하여 구축
데이터 레이크
여러 곳에서 흘러오는 데이터를 데이터 원래의 형태로 축적하는 축적 장소를 데이터 레이크라고 합니다.
임의의 데이터를 저장할 수 있는 분산 스토리지가 데이터 레이크로 이용되며 대부분의 경우 "CSV", "JSON" 등의 텍스트 형식이 사용됩니다.
위의 데이터 웨어하우스 파이프라인에서 웨어하우스만 레이크로 바꾸면 그림과 같은 모습이 나옵니다.
수집한 원시데이터를 그대로 데이터레이크에 보존한다는점이 웨어하우스와는 다른점이됩니다.
또한 데이터레이크는 단순한 스토리지(저장공간)이며 그것만으로 데이터를 가공할 수 없습니다.
"MapReduce"와 같은 분산 데이터 처리 기술을 이용하여 분석에 활용할 수 있도록 데이터를 처리하게됩니다.
데이터를 수집하는 목적
데이터 검색
대량의 데이터 중 조건에 맞는 것을 찾고싶은 경우가 있습니다.
어떤 시스템에 장애가 발생했을 때 그 원인을 찾거나 고객의 문의가 있으면 로그를 확인하는 경우가 해당됩니다.
필요할 때 신속하게 데이터를 검색할 수 있도록 해야하며, 실시간 데이터 처리나 검색 엔진을 사용하여 찾는 기능이 필요합니다.
데이터 가공
업무시스템의 일부로서 데이터 처리 결과를 이용하고 싶은 경우가 있습니다.
웹사이트에서 추천 상품을 제안하거나, 센서 데이터의 비정상적인 상태를 감지하여 통보하는 경우가 해당됩니다.
이 경우 목적이 분명하기 때문에 필요한 데이터를 계획적으로 모아 파이프라인을 설계합니다.
데이터 시각화
데이터를 시각적으로 확인하면서 알고싶은 정보를 얻는 경우가 있습니다.
BI도구나 소프트웨어로 그래프를 만들고 비즈니스 의사 결정을 하는데 도움이 되도록 하는 경우가 해당됩니다.
'데이터 엔지니어링' 카테고리의 다른 글
[빅데이터를 지탱하는 기술] 빅데이터의 탐색 # 2 (0) | 2023.05.17 |
---|---|
[빅데이터를 지탱하는 기술] 빅데이터의 탐색 # 1 (0) | 2023.05.16 |
[빅데이터를 지탱하는 기술] 빅데이터 시대의 데이터 분석 # 1 (0) | 2023.04.11 |
[빅데이터를 지탱하는 기술] 배경 (0) | 2023.04.11 |
[빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 7 (0) | 2023.03.29 |