데이터 엔지니어링

    [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 5

    트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에서 했던 작업을 embulk, hive, presto, airflow를 이용하여 작업해보도록 하겠습니다. 이전 포스팅은 아래와 같습니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 4 트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 3 트위터 API를 이용하여 데이 my-develop-note.tistory.com MongoDB로 부터 데이터를 추출하기 위하여 오픈소스 벌크 전송 도구인 "Embulk"를 사용하였습니다. Embulk 설치 Embulk 공식 홈페이지를 참고하여 설치하였습니다. ..

    [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 4

    트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 3 트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 2 트위터 API를 이용하여 데이 my-develop-note.tistory.com 이전 포스팅에서는 Hadoop Yarn에서 Spark 클러스터 분산 환경을 구축한 경험과 방법에 대하여 공유했습니다. 여기서는 Spark 클러스터를 이용하여 데이터 파이프라인을 구축한 경험을 이야기하고자 합니다. 먼저 파이썬용 패키지 설치 프로그램인 pip를 이용하여 pyspark를 설치하였습니..

    [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 3

    트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 2 트위터 API를 이용하여 데이터 파이프라인 만들기 이전에 작성했던 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 1 트위터 API를 이 my-develop-note.tistory.com 이번 포스팅에서는 VM에 Spark 분산환경을 구축한 경험을 공유해보고자 합니다. Hadoop YARN에서 Spark를 실행하는 방법입니다. java-8이 설치되어 있다고 가정하겠습니다. 이전에 Hadoop을 설치했던 것과 마찬가지로 master, slave VM 모두 동일하게 /usr/loca..

    [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 2

    트위터 API를 이용하여 데이터 파이프라인 만들기 이전에 작성했던 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 1 트위터 API를 이용하여 데이터 파이프라인 만들기 트위터의 API로 트위터 텍스트 데이터를 수집하고 간단한 데이터 파이프라인을 만드는 프로젝트를 진행하였고, 프로젝트는 [빅데이터를 지탱하 my-develop-note.tistory.com 데이터 수집 먼저 데이터 수집에는 트위터 API를 이용하고 파이썬 스크립트를 작성하였고 master VM에 mongodb를 이용하여 데이터에 저장했습니다. 파이썬 스크립트를 작성하기 전에 크게 2가지 작업을 해야합니다. 먼저 트위터의 API를 사용하기 위해서는 트위터에 개발자 등록을 하고 API..

    [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 1

    트위터 API를 이용하여 데이터 파이프라인 만들기 트위터의 API로 트위터 텍스트 데이터를 수집하고 간단한 데이터 파이프라인을 만드는 프로젝트를 진행하였고, 프로젝트는 [빅데이터를 지탱하는 기술] 책에 나오는 예제입니다. 책이 나왔던 당시와 현재 사용하는 기술들의 버전이 차이가 나고, 책에서는 분산처리 환경에 대해서는 나와있지 않기 때문에 개인 프로젝트로 진행하고 작업한 내용을 공유하고자 포스팅을 진행하겠습니다. 먼저 Virtualbox 의 가상머신(VM)을 이용하여 환경을 구축하였습니다. VM 환경에서 데이터를 분산처리 하기 위하여 구성한 환경은 아래와 같습니다. 모든 VM은 ubuntu-20.04를 사용했습니다. master_node : cpu 프로세서 4개, RAM 8GB slave_nodes : ..