hadoop

[빅데이터를 지탱하는 기술] 대규모 분산 처리의 프레임워크 # 2

2023.05.19

Hadoop Hadoop은 현재 빅데이터를 대포하는 시스템입니다. 사실 Hadoop은 단일 소프트웨어가 아니라 분산 시스템을 구성하는 다수의 소프트웨어로 이루어진 집합체입니다. 분산 시스템(Hadoop)의 구성요소 HDFS(Hadoop Distributed File System) : 하둡 분산 파일 시스템 YARN(Yet Another Resource Negotiator) : 리소스 관리자 MR(Map Reduce) : 분산 데이터 처리(distributed data processing : 맵리듀스) 그 외의 프로젝트들은 Hadoop과 독립적으로 개발되어 Hadoop을 이용한 분산 애플리케이션으로 동작합니다. 모든 분산 시스템이 Hadoop에 의존하는 것이 아니라 Hadoop을 일부 사용하거나 전혀 이용..

데이터 엔지니어링

[빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 1

2023.03.24

트위터 API를 이용하여 데이터 파이프라인 만들기 트위터의 API로 트위터 텍스트 데이터를 수집하고 간단한 데이터 파이프라인을 만드는 프로젝트를 진행하였고, 프로젝트는 [빅데이터를 지탱하는 기술] 책에 나오는 예제입니다. 책이 나왔던 당시와 현재 사용하는 기술들의 버전이 차이가 나고, 책에서는 분산처리 환경에 대해서는 나와있지 않기 때문에 개인 프로젝트로 진행하고 작업한 내용을 공유하고자 포스팅을 진행하겠습니다. 먼저 Virtualbox 의 가상머신(VM)을 이용하여 환경을 구축하였습니다. VM 환경에서 데이터를 분산처리 하기 위하여 구성한 환경은 아래와 같습니다. 모든 VM은 ubuntu-20.04를 사용했습니다. master_node : cpu 프로세서 4개, RAM 8GB slave_nodes : ..

[빅데이터를 지탱하는 기술] 대규모 분산 처리의 프레임워크 # 2

[빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 1

티스토리툴바