빅데이터를 지탱하는 기술

[빅데이터를 지탱하는 기술] 대규모 분산 처리의 프레임워크 # 1
구조화 데이터와 비구조화 데이터 SQL로 데이터를 집계하는 경우 테이블의 컬러명, 데이터형태, 테이블의 관계를 스키마로 정하게 됩니다. 이때 스키마가 명확하게 정의된 데이터를 구조화 데이터(structured data : 정형데이터)라고 합니다. 빅데이터는 반드시 구조화된 데이터만 존재하지 않습니다. 텍스트 데이터, 동영상 데이터, 음성 데이터 등등 스키마가 없는 데이터를 비구조화 데이터(unstructed data : 비정형데이터)라고 합니다. 비구조화된 원시데이터를 분산 스토리지에 저장하고 그것을 분산시스템으로 처리하는 것이 데이터 레이크의 개념이고 이런 비구조화된 데이터를 데이터 가공, 스키마 정의를 통하여 구조화된 데이터로 바꾸어 데이터 웨어하우스로 옮겨 데이터 분석작업을 할 수 있습니다. 스키마..

[빅데이터를 지탱하는 기술] 빅데이터의 탐색 # 3
데이터 마트의 기본구조 데이터 분석을 위하여 BI도구(Tableau, Redash, PowerBI, Looker ..)에서 데이터를 시각화하려면 시각화에 필요한 정보를 모아놓은 데이터 마트가 필수입니다. 데이터 마트의 설계에 기본이 되는 개념을 정리합니다. 시각화에 적합한 데이터 마트 만들기(OLAP) 데이터 분석, 데이터 시각화에서 가장 핵심적인 개념은 OLAP(Online Analytical Processing)입니다. OLAP는 사용자가 정보에 직접 접근하여 대화식으로 정보를 분석하고 의사결정에 활용하는 과정을 말합니다. OLAP의 개념을 몰라도 BI도구를 사용할 수 있지만 데이터 마트를 구축할 때는 지식이 필요해 보입니다. 다차원 모델과 OLAP 큐브 데이터 웨어하우스를 모델링할 때 사실(Fact..

[빅데이터를 지탱하는 기술] 빅데이터의 탐색 # 2
열 지향 스토리에 의한 고속화 데이터베이스의 지연을 줄이기 데이터양이 증가함에 따라 집계에 시간은 길어집니다. 데이터 집계에 몇 분 이상의 시간이 소모된다면 다음 작업에 영향을 주게 되고 대기 시간이 늘어나 전반적으로 작업이 느려지는 상황이 나오게 됩니다. 짧은 시간안에 데이터를 집계하려면 아래의 시스템을 만들어 적용해야 합니다. 메모리를 초과하는 대량의 데이터를 짧은 시간에 집계하려면 데이터를 미리 집계에 적합한 형태로 변경해야합니다. 수집한 대량의 데이터를 처리할 수 있는 데이터 레이크 혹은 데이터 웨어하우스에 적재를 하고 원하는 데이터를 추출하여 데이터를 집계합니다. 그리고 데이터 마트를 구축하여 짧은 시간에 응답을 얻을 수 있도록 합니다. 데이터 처리의 지연 일반적으로 데이터 처리의 응답이 빠르다..

[빅데이터를 지탱하는 기술] 빅데이터 시대의 데이터 분석 # 1
데이터 엔지니어링의 바이블이라 할 수 있는 책 "빅데이터를 지탱하는 기술"을 학습하고 정리한 글입니다. 여기서는 "빅데이터 기술"이 기존의 솔루션과 어떻게 다른지와 새롭게 등장하는 용어들에 대하여 정리하겠습니다. 빅데이터 기술 - 분산 시스템을 활용해서 데이터를 가공해 나가는 구조 데이터 파이프라인 일반적으로 차례대로 전달해나가는 데이터로 구성된 시스템을 "데이터 파이프라인"이라고 합니다. 어디에서 데이터를 수집, 무엇을 실현하고 싶은지에 따라 변화 데이터 수집에서 워크플로 관리까지 데이터 수집 데이터 파이프라인의 시작은 데이터를 모으는 단계에서 부터 시작합니다. 데이터는 여러 장소에서 발생하며 각각 다 다른 형태를 보입니다. 데이터베이스에 쓰인 거래처 데이터 파일 서버에 축적된 로그 파일 스마트 폰에서..
[빅데이터를 지탱하는 기술] 배경
데이터 엔지니어링의 바이블이라 할 수 있는 책 "빅데이터를 지탱하는 기술"을 학습하고 정리한 글입니다. 여기서는 '빅데이터'의 역사에 관하여 간단하게 확인하겠습니다. 빅데이터의 정착 분산 시스템에 의한 데이터 처리의 고속화 - 빅데이터의 취급하기 어려운 점을 극복한 두가지 기술 "빅데이터"라는 단어는 많은 기업들이 데이터 처리에 분산 시스템을 도입하기 시작했을 때 퍼지게 되었습니다. 데이터를 비즈니스에 활용하려는 움직임이 활발해졌고, 책이 출간되고 난 뒤 현재에는 거의 모든 기업들이 데이터를 기반으로 비즈니스에 중요한 의사결정을 하고 있습니다. 책에서는 "데이터 처리에 수고와 시간이 걸린다"는 점을 주목하였습니다. 알고 싶은 정보가 있다는 전제하에 그것을 어떻게 효율적으로 실행할 것인가? 생각하는 것이 ..

[빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 7
트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 6 트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 5 트위터 API를 이용하여 데이 my-develop-note.tistory.com 이번 포스팅에는 전에 진행했던 task1,2,3을 워크플로 도구인 airflow를 이용하여 자동화시킨 경험을 공유하겠습니다. Task 1 : Embulk에 의한 데이터 추출 Task 2 : Hive에 의한 데이터 구조화 Task 3 : Presto에 의한 데이터 집계 Airflow 설치 & 세팅..