spark

    [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 4

    트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 3 트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 2 트위터 API를 이용하여 데이 my-develop-note.tistory.com 이전 포스팅에서는 Hadoop Yarn에서 Spark 클러스터 분산 환경을 구축한 경험과 방법에 대하여 공유했습니다. 여기서는 Spark 클러스터를 이용하여 데이터 파이프라인을 구축한 경험을 이야기하고자 합니다. 먼저 파이썬용 패키지 설치 프로그램인 pip를 이용하여 pyspark를 설치하였습니..