전체 글

전체 글

    [빅데이터를 지탱하는 기술] 빅데이터의 탐색 # 3

    데이터 마트의 기본구조 데이터 분석을 위하여 BI도구(Tableau, Redash, PowerBI, Looker ..)에서 데이터를 시각화하려면 시각화에 필요한 정보를 모아놓은 데이터 마트가 필수입니다. 데이터 마트의 설계에 기본이 되는 개념을 정리합니다. 시각화에 적합한 데이터 마트 만들기(OLAP) 데이터 분석, 데이터 시각화에서 가장 핵심적인 개념은 OLAP(Online Analytical Processing)입니다. OLAP는 사용자가 정보에 직접 접근하여 대화식으로 정보를 분석하고 의사결정에 활용하는 과정을 말합니다. OLAP의 개념을 몰라도 BI도구를 사용할 수 있지만 데이터 마트를 구축할 때는 지식이 필요해 보입니다. 다차원 모델과 OLAP 큐브 데이터 웨어하우스를 모델링할 때 사실(Fact..

    [빅데이터를 지탱하는 기술] 빅데이터의 탐색 # 2

    열 지향 스토리에 의한 고속화 데이터베이스의 지연을 줄이기 데이터양이 증가함에 따라 집계에 시간은 길어집니다. 데이터 집계에 몇 분 이상의 시간이 소모된다면 다음 작업에 영향을 주게 되고 대기 시간이 늘어나 전반적으로 작업이 느려지는 상황이 나오게 됩니다. 짧은 시간안에 데이터를 집계하려면 아래의 시스템을 만들어 적용해야 합니다. 메모리를 초과하는 대량의 데이터를 짧은 시간에 집계하려면 데이터를 미리 집계에 적합한 형태로 변경해야합니다. 수집한 대량의 데이터를 처리할 수 있는 데이터 레이크 혹은 데이터 웨어하우스에 적재를 하고 원하는 데이터를 추출하여 데이터를 집계합니다. 그리고 데이터 마트를 구축하여 짧은 시간에 응답을 얻을 수 있도록 합니다. 데이터 처리의 지연 일반적으로 데이터 처리의 응답이 빠르다..

    [빅데이터를 지탱하는 기술] 빅데이터의 탐색 # 1

    크로스 집계의 기본 데이터 시각화 에서 가장 기본이 되는 것은 '크로스 집계' 입니다. '크로스 집계'의 개념의 대하여 알아보겠습니다. 크로스 테이블 어떤 상품의 월별 매출을 정리한 데이터입니다. 크로스 테이블은 다음의 특징을 가집니다. 행 방향(세로)으로는 '상품명'이 나열되고, 열 방향(가로)으로는 '매출 월'이 나열됨 행과 열이 교차하는 부분에 숫자 데이터가 들어감 사람이 보기 편한 형식 트랜잭션 테이블 트랜잭션 테이블은 다음의 특징을 가집니다. 새로운 행을 추가하는 것은 간단하지만 열을 추가하는 것은 어려움 데이터가 증가할 때 행 방향으로 증가하고 열 방향으로 증가하지 않아야 함 데이터베이스가 다루기 편한 방식 크로스 집계(cross tabulation) 크로스집계는 트랜잭션 테이블에서 크로스 테..

    [코딩테스트] 백준 다리 놓기(1010) 파이썬(Python)

    https://www.acmicpc.net/problem/1010 1010번: 다리 놓기 입력의 첫 줄에는 테스트 케이스의 개수 T가 주어진다. 그 다음 줄부터 각각의 테스트케이스에 대해 강의 서쪽과 동쪽에 있는 사이트의 개수 정수 N, M (0 < N ≤ M < 30)이 주어진다. www.acmicpc.net t = int(input()) d = {} for i in range(1,30+1): for j in range(i,30+1): if i == 1: d[(i, j)] = i * j elif i == j: d[(i, j)] = 1 else: d[i, j] = d[(i, j-1)] + d[(i-1, j-1)] for _ in range(t): n, m = map(int, input().split())..

    [빅데이터를 지탱하는 기술] 빅데이터 시대의 데이터 분석 # 2

    데이터 엔지니어링의 바이블이라 할 수 있는 책 "빅데이터를 지탱하는 기술"을 학습하고 정리한 글입니다. 데이터 웨어하우스와 데이터 마트 데이터 웨어하우스는 웹 서버나 업무 시스템에서 일반적으로 이용되는 RDB와는 달리 "대량의 데이터를 장기 보존하는 것"에 최적화 되어있습니다. 정리된 데이터를 한 번에 전송하는 것은 뛰어나지만 소량의 데이터를 자주 쓰고 읽는 데는 적합하지 않습니다. 데이터 소스 : 업무 시스템을 위한 RDB나 로그(로우 데이터) 등을 저장하는 파일 서버 ETL 프로세스 : 로우 데이터를 추출하고 필요에 따라 가공한 후 저장하는 과정 데이터 마트 : 데이터 웨어하우스에서 필요한(분석을 위한) 데이터만 추출하여 구축 데이터 레이크 여러 곳에서 흘러오는 데이터를 데이터 원래의 형태로 축적하는..

    [코딩테스트] 백준 색종이 만들기(2630) 파이썬(Python)

    https://www.acmicpc.net/problem/2630 2630번: 색종이 만들기 첫째 줄에는 전체 종이의 한 변의 길이 N이 주어져 있다. N은 2, 4, 8, 16, 32, 64, 128 중 하나이다. 색종이의 각 가로줄의 정사각형칸들의 색이 윗줄부터 차례로 둘째 줄부터 마지막 줄까지 주어진다. www.acmicpc.net N = int(input()) array = [] for _ in range(N): array.append(list(map(int, input().split()))) zeros = 0 ones = 0 def solve(n,array): global zeros global ones all_zeros = True all_ones = True if n == 1: if arra..