vm

[빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 1

2023.03.24

트위터 API를 이용하여 데이터 파이프라인 만들기 트위터의 API로 트위터 텍스트 데이터를 수집하고 간단한 데이터 파이프라인을 만드는 프로젝트를 진행하였고, 프로젝트는 [빅데이터를 지탱하는 기술] 책에 나오는 예제입니다. 책이 나왔던 당시와 현재 사용하는 기술들의 버전이 차이가 나고, 책에서는 분산처리 환경에 대해서는 나와있지 않기 때문에 개인 프로젝트로 진행하고 작업한 내용을 공유하고자 포스팅을 진행하겠습니다. 먼저 Virtualbox 의 가상머신(VM)을 이용하여 환경을 구축하였습니다. VM 환경에서 데이터를 분산처리 하기 위하여 구성한 환경은 아래와 같습니다. 모든 VM은 ubuntu-20.04를 사용했습니다. master_node : cpu 프로세서 4개, RAM 8GB slave_nodes : ..

[빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 1

티스토리툴바