빅데이터를 지탱하는 기술

[빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 4
트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 3 트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 2 트위터 API를 이용하여 데이 my-develop-note.tistory.com 이전 포스팅에서는 Hadoop Yarn에서 Spark 클러스터 분산 환경을 구축한 경험과 방법에 대하여 공유했습니다. 여기서는 Spark 클러스터를 이용하여 데이터 파이프라인을 구축한 경험을 이야기하고자 합니다. 먼저 파이썬용 패키지 설치 프로그램인 pip를 이용하여 pyspark를 설치하였습니..

[빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 3
트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 2 트위터 API를 이용하여 데이터 파이프라인 만들기 이전에 작성했던 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 1 트위터 API를 이 my-develop-note.tistory.com 이번 포스팅에서는 VM에 Spark 분산환경을 구축한 경험을 공유해보고자 합니다. Hadoop YARN에서 Spark를 실행하는 방법입니다. java-8이 설치되어 있다고 가정하겠습니다. 이전에 Hadoop을 설치했던 것과 마찬가지로 master, slave VM 모두 동일하게 /usr/loca..

[빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 2
트위터 API를 이용하여 데이터 파이프라인 만들기 이전에 작성했던 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 1 트위터 API를 이용하여 데이터 파이프라인 만들기 트위터의 API로 트위터 텍스트 데이터를 수집하고 간단한 데이터 파이프라인을 만드는 프로젝트를 진행하였고, 프로젝트는 [빅데이터를 지탱하 my-develop-note.tistory.com 데이터 수집 먼저 데이터 수집에는 트위터 API를 이용하고 파이썬 스크립트를 작성하였고 master VM에 mongodb를 이용하여 데이터에 저장했습니다. 파이썬 스크립트를 작성하기 전에 크게 2가지 작업을 해야합니다. 먼저 트위터의 API를 사용하기 위해서는 트위터에 개발자 등록을 하고 API..