전체 글

전체 글

    [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 4

    트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 3 트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 2 트위터 API를 이용하여 데이 my-develop-note.tistory.com 이전 포스팅에서는 Hadoop Yarn에서 Spark 클러스터 분산 환경을 구축한 경험과 방법에 대하여 공유했습니다. 여기서는 Spark 클러스터를 이용하여 데이터 파이프라인을 구축한 경험을 이야기하고자 합니다. 먼저 파이썬용 패키지 설치 프로그램인 pip를 이용하여 pyspark를 설치하였습니..

    [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 3

    트위터 API를 이용하여 데이터 파이프라인 만들기 이전 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 2 트위터 API를 이용하여 데이터 파이프라인 만들기 이전에 작성했던 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 1 트위터 API를 이 my-develop-note.tistory.com 이번 포스팅에서는 VM에 Spark 분산환경을 구축한 경험을 공유해보고자 합니다. Hadoop YARN에서 Spark를 실행하는 방법입니다. java-8이 설치되어 있다고 가정하겠습니다. 이전에 Hadoop을 설치했던 것과 마찬가지로 master, slave VM 모두 동일하게 /usr/loca..

    [코딩테스트] 백준 전화번호 목록 파이썬(Python)

    https://www.acmicpc.net/problem/5052 5052번: 전화번호 목록 첫째 줄에 테스트 케이스의 개수 t가 주어진다. (1 ≤ t ≤ 50) 각 테스트 케이스의 첫째 줄에는 전화번호의 수 n이 주어진다. (1 ≤ n ≤ 10000) 다음 n개의 줄에는 목록에 포함되어 있는 전화번호가 www.acmicpc.net import sys t =int(sys.stdin.readline().strip()) for _ in range(t): numbers = [] flag = True n = int(sys.stdin.readline().strip()) numbers = [sys.stdin.readline().strip() for _ in range(n)] numbers.sort() for i ..

    [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 2

    트위터 API를 이용하여 데이터 파이프라인 만들기 이전에 작성했던 포스팅에 이어서 진행합니다. [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 1 트위터 API를 이용하여 데이터 파이프라인 만들기 트위터의 API로 트위터 텍스트 데이터를 수집하고 간단한 데이터 파이프라인을 만드는 프로젝트를 진행하였고, 프로젝트는 [빅데이터를 지탱하 my-develop-note.tistory.com 데이터 수집 먼저 데이터 수집에는 트위터 API를 이용하고 파이썬 스크립트를 작성하였고 master VM에 mongodb를 이용하여 데이터에 저장했습니다. 파이썬 스크립트를 작성하기 전에 크게 2가지 작업을 해야합니다. 먼저 트위터의 API를 사용하기 위해서는 트위터에 개발자 등록을 하고 API..

    [빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 1

    트위터 API를 이용하여 데이터 파이프라인 만들기 트위터의 API로 트위터 텍스트 데이터를 수집하고 간단한 데이터 파이프라인을 만드는 프로젝트를 진행하였고, 프로젝트는 [빅데이터를 지탱하는 기술] 책에 나오는 예제입니다. 책이 나왔던 당시와 현재 사용하는 기술들의 버전이 차이가 나고, 책에서는 분산처리 환경에 대해서는 나와있지 않기 때문에 개인 프로젝트로 진행하고 작업한 내용을 공유하고자 포스팅을 진행하겠습니다. 먼저 Virtualbox 의 가상머신(VM)을 이용하여 환경을 구축하였습니다. VM 환경에서 데이터를 분산처리 하기 위하여 구성한 환경은 아래와 같습니다. 모든 VM은 ubuntu-20.04를 사용했습니다. master_node : cpu 프로세서 4개, RAM 8GB slave_nodes : ..

    [코딩테스트] 프로그래머스 문자열 나누기 파이썬(Python)

    https://school.programmers.co.kr/learn/courses/30/lessons/140108 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr def solution(s): def solution(s): result = 0 #x와 같은 글자의 수 count1 = 0 #x와 다른 글자의 수 count2 = 0 for i in range(len(s)): if count1 == count2: result += 1 x = s[i] count1 = 0 count2 = 0 if s[i] == x: count1 +=1 else: count2 += ..