데이터 엔지니어링

    [빅데이터를 지탱하는 기술] 빅데이터의 탐색 # 1

    크로스 집계의 기본 데이터 시각화 에서 가장 기본이 되는 것은 '크로스 집계' 입니다. '크로스 집계'의 개념의 대하여 알아보겠습니다. 크로스 테이블 어떤 상품의 월별 매출을 정리한 데이터입니다. 크로스 테이블은 다음의 특징을 가집니다. 행 방향(세로)으로는 '상품명'이 나열되고, 열 방향(가로)으로는 '매출 월'이 나열됨 행과 열이 교차하는 부분에 숫자 데이터가 들어감 사람이 보기 편한 형식 트랜잭션 테이블 트랜잭션 테이블은 다음의 특징을 가집니다. 새로운 행을 추가하는 것은 간단하지만 열을 추가하는 것은 어려움 데이터가 증가할 때 행 방향으로 증가하고 열 방향으로 증가하지 않아야 함 데이터베이스가 다루기 편한 방식 크로스 집계(cross tabulation) 크로스집계는 트랜잭션 테이블에서 크로스 테..

    [빅데이터를 지탱하는 기술] 빅데이터 시대의 데이터 분석 # 2

    데이터 엔지니어링의 바이블이라 할 수 있는 책 "빅데이터를 지탱하는 기술"을 학습하고 정리한 글입니다. 데이터 웨어하우스와 데이터 마트 데이터 웨어하우스는 웹 서버나 업무 시스템에서 일반적으로 이용되는 RDB와는 달리 "대량의 데이터를 장기 보존하는 것"에 최적화 되어있습니다. 정리된 데이터를 한 번에 전송하는 것은 뛰어나지만 소량의 데이터를 자주 쓰고 읽는 데는 적합하지 않습니다. 데이터 소스 : 업무 시스템을 위한 RDB나 로그(로우 데이터) 등을 저장하는 파일 서버 ETL 프로세스 : 로우 데이터를 추출하고 필요에 따라 가공한 후 저장하는 과정 데이터 마트 : 데이터 웨어하우스에서 필요한(분석을 위한) 데이터만 추출하여 구축 데이터 레이크 여러 곳에서 흘러오는 데이터를 데이터 원래의 형태로 축적하는..

    [빅데이터를 지탱하는 기술] 빅데이터 시대의 데이터 분석 # 1

    데이터 엔지니어링의 바이블이라 할 수 있는 책 "빅데이터를 지탱하는 기술"을 학습하고 정리한 글입니다. 여기서는 "빅데이터 기술"이 기존의 솔루션과 어떻게 다른지와 새롭게 등장하는 용어들에 대하여 정리하겠습니다. 빅데이터 기술 - 분산 시스템을 활용해서 데이터를 가공해 나가는 구조 데이터 파이프라인 일반적으로 차례대로 전달해나가는 데이터로 구성된 시스템을 "데이터 파이프라인"이라고 합니다. 어디에서 데이터를 수집, 무엇을 실현하고 싶은지에 따라 변화 데이터 수집에서 워크플로 관리까지 데이터 수집 데이터 파이프라인의 시작은 데이터를 모으는 단계에서 부터 시작합니다. 데이터는 여러 장소에서 발생하며 각각 다 다른 형태를 보입니다. 데이터베이스에 쓰인 거래처 데이터 파일 서버에 축적된 로그 파일 스마트 폰에서..

    [빅데이터를 지탱하는 기술] 배경

    데이터 엔지니어링의 바이블이라 할 수 있는 책 "빅데이터를 지탱하는 기술"을 학습하고 정리한 글입니다. 여기서는 '빅데이터'의 역사에 관하여 간단하게 확인하겠습니다. 빅데이터의 정착 분산 시스템에 의한 데이터 처리의 고속화 - 빅데이터의 취급하기 어려운 점을 극복한 두가지 기술 "빅데이터"라는 단어는 많은 기업들이 데이터 처리에 분산 시스템을 도입하기 시작했을 때 퍼지게 되었습니다. 데이터를 비즈니스에 활용하려는 움직임이 활발해졌고, 책이 출간되고 난 뒤 현재에는 거의 모든 기업들이 데이터를 기반으로 비즈니스에 중요한 의사결정을 하고 있습니다. 책에서는 "데이터 처리에 수고와 시간이 걸린다"는 점을 주목하였습니다. 알고 싶은 정보가 있다는 전제하에 그것을 어떻게 효율적으로 실행할 것인가? 생각하는 것이 ..

    [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 7

    트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 6 트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 5 트위터 API를 이용하여 데이 my-develop-note.tistory.com 이번 포스팅에는 전에 진행했던 task1,2,3을 워크플로 도구인 airflow를 이용하여 자동화시킨 경험을 공유하겠습니다. Task 1 : Embulk에 의한 데이터 추출 Task 2 : Hive에 의한 데이터 구조화 Task 3 : Presto에 의한 데이터 집계 Airflow 설치 & 세팅..

    [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 6

    트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 5 트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에서 했던 작업을 embulk, hive, presto, airflow를 이용하여 작업해보도록 하겠습니다. 이전 포스팅은 아래와 같습니다. [빅데이터를 지탱 my-develop-note.tistory.com Presto 설치 & 세팅 presto 공식문서를 참고하였습니다. 링크는 아래와 같습니다. Deploying Presto — Presto 0.279 Documentation Create an etc directory inside the installation directory..