데이터 엔지니어링

[빅데이터를 지탱하는 기술] 대규모 분산 처리의 프레임워크 # 1
구조화 데이터와 비구조화 데이터 SQL로 데이터를 집계하는 경우 테이블의 컬러명, 데이터형태, 테이블의 관계를 스키마로 정하게 됩니다. 이때 스키마가 명확하게 정의된 데이터를 구조화 데이터(structured data : 정형데이터)라고 합니다. 빅데이터는 반드시 구조화된 데이터만 존재하지 않습니다. 텍스트 데이터, 동영상 데이터, 음성 데이터 등등 스키마가 없는 데이터를 비구조화 데이터(unstructed data : 비정형데이터)라고 합니다. 비구조화된 원시데이터를 분산 스토리지에 저장하고 그것을 분산시스템으로 처리하는 것이 데이터 레이크의 개념이고 이런 비구조화된 데이터를 데이터 가공, 스키마 정의를 통하여 구조화된 데이터로 바꾸어 데이터 웨어하우스로 옮겨 데이터 분석작업을 할 수 있습니다. 스키마..

[빅데이터를 지탱하는 기술] 빅데이터의 탐색 # 3
데이터 마트의 기본구조 데이터 분석을 위하여 BI도구(Tableau, Redash, PowerBI, Looker ..)에서 데이터를 시각화하려면 시각화에 필요한 정보를 모아놓은 데이터 마트가 필수입니다. 데이터 마트의 설계에 기본이 되는 개념을 정리합니다. 시각화에 적합한 데이터 마트 만들기(OLAP) 데이터 분석, 데이터 시각화에서 가장 핵심적인 개념은 OLAP(Online Analytical Processing)입니다. OLAP는 사용자가 정보에 직접 접근하여 대화식으로 정보를 분석하고 의사결정에 활용하는 과정을 말합니다. OLAP의 개념을 몰라도 BI도구를 사용할 수 있지만 데이터 마트를 구축할 때는 지식이 필요해 보입니다. 다차원 모델과 OLAP 큐브 데이터 웨어하우스를 모델링할 때 사실(Fact..

[빅데이터를 지탱하는 기술] 빅데이터의 탐색 # 2
열 지향 스토리에 의한 고속화 데이터베이스의 지연을 줄이기 데이터양이 증가함에 따라 집계에 시간은 길어집니다. 데이터 집계에 몇 분 이상의 시간이 소모된다면 다음 작업에 영향을 주게 되고 대기 시간이 늘어나 전반적으로 작업이 느려지는 상황이 나오게 됩니다. 짧은 시간안에 데이터를 집계하려면 아래의 시스템을 만들어 적용해야 합니다. 메모리를 초과하는 대량의 데이터를 짧은 시간에 집계하려면 데이터를 미리 집계에 적합한 형태로 변경해야합니다. 수집한 대량의 데이터를 처리할 수 있는 데이터 레이크 혹은 데이터 웨어하우스에 적재를 하고 원하는 데이터를 추출하여 데이터를 집계합니다. 그리고 데이터 마트를 구축하여 짧은 시간에 응답을 얻을 수 있도록 합니다. 데이터 처리의 지연 일반적으로 데이터 처리의 응답이 빠르다..