데이터 엔지니어링의 바이블이라 할 수 있는 책 "빅데이터를 지탱하는 기술"을 학습하고 정리한 글입니다.
여기서는 '빅데이터'의 역사에 관하여 간단하게 확인하겠습니다.
빅데이터의 정착
분산 시스템에 의한 데이터 처리의 고속화
- 빅데이터의 취급하기 어려운 점을 극복한 두가지 기술
"빅데이터"라는 단어는 많은 기업들이 데이터 처리에 분산 시스템을 도입하기 시작했을 때 퍼지게 되었습니다.
데이터를 비즈니스에 활용하려는 움직임이 활발해졌고, 책이 출간되고 난 뒤 현재에는 거의 모든 기업들이 데이터를 기반으로 비즈니스에 중요한 의사결정을 하고 있습니다.
책에서는 "데이터 처리에 수고와 시간이 걸린다"는 점을 주목하였습니다. 알고 싶은 정보가 있다는 전제하에 그것을 어떻게 효율적으로 실행할 것인가? 생각하는 것이 책의 목적입니다.
빅데이터 기술의 요구
- Hadoop과 NoSQL의 대두
"빅데이터"라는 키워드에 가장 많이 등장하는 기술은 Hadoop
이고 책에서는 NoSQL
도 언급하고 있습니다.
저는 나중에 배울 Spark
와 BigQuery
를 추가하고 싶습니다. 현재에는 다양한 빅데이터 기술들이 있습니다
Hadoop
Hadoop
은 간단하게 이야기하면 "다수의 컴퓨터에서 대량의 데이터를 처리하기"위한 시스템입니다.
"빅데이터"는 데이터의 사이즈가 GB를 훌쩍넘는 TB, PB 수준입니다. 이러한 방대한 데이터를 저장할 수 있는 스토리지(저장공간)와 데이터를 순차적으로 처리할 수 있는 구조가 필요합니다.
방대한 데이터를 다루기 위해서는 저성능의 컴퓨터 수 백대,수 천대를 이용해야합니다.
물론 고성능 컴퓨터 한대를 이용할 수 있겠지만 컴퓨터의 하드웨어나 소프트웨어를 고려해보았을 때 비용도 많이 들고 비효율적일 것 입니다.
이렇게 저성능 컴퓨터들을 관리하는 것이 Hadoop
이라는 프레임워크입니다.
NoSQL
NoSQL
은 Not Only SQL
의 약자로 SQL
을 사용하는 전통적인 RDB
의 약점을 보완하며 등장한 데이터베이스입니다.
NoSQL
데이터베이스에는 다양한 종류가 있습니다.
Key-Value Store
:Riak
,Redis
Document Store
:MongoDB
,CouchDB
Wide-Column Store
:Cassandra
책에서는 MongoDB
를 사용한 예제를 마지막에 실습하고 있습니다.
Hadoop
과 NoSQL
데이터베이스를 조합하여 현실적인 비용으로 데이터를 처리할 수 있게 되었고, 빠르게 현업에서 정착하게 되었습니다.
분산 시스템의 비즈니스 이용 개척
-데이터 웨어하우스와의 공존
Hadoop
의 등장이전에도 데이터 웨어하우스를 많은 기업에서 데이터 분석에 이용하였습니다.
전통적인 데이터 웨어하우스도 대량의 데이터를 처리할 수 있으며, 어떤 부분에서는 Hadoop
보다 우수합니다.
하지만 위에서 언급했던 단점들이 존재합니다. 일부 데이터 웨어하우스 제품들은 안정적인 성능을 위하여 하드웨어와 소프트웨어가 통합된 장비를 구매해야하고 데이터의 용량을 늘리려면 하드웨어를 교체하는 등 나중에 확장하기가 쉽지 않았습니다.
그래서 모든 데이터의 처리를 데이터 웨어하우스에 맡기지 않고, 가속도적으로 늘어나는 데이터의 처리를 Hadoop
이 많아서 데이터의 증가로 확장이 필요하면 빠르게 확장하여 대응하고 비교적 작은 데이터, 중요한 데이터는 데이터 웨어하우스에 넣는 식으로 데이터 웨어하우스의 부하를 줄이게 되었습니다.
직접 할 수 있는 데이터 분석 폭 확대
클라우드 서비스와 데이터 디스커버리로 가속하는 빅데이터의 활용
'여러 컴퓨터에 분산처리 한다'는 점에서 클라우드를 이용하여 언제든 컴퓨터자원을 확보하고 이용할 수 있는 환경이 자연스럽게 만들어졌습니다.
또한 같은 시기에 데이터 웨어하우스에 저장된 데이터를 시각화하려는 데이터 디스커버리가 인기를 끌었습니다.
데이터 디스커버리(Data Discovery)란 '대화형으로 데이터를 시각화하여 가치 있는 정보를 찾으려고 하는 프로세스'를 가리키며 쉽게 BI 도구(Business Intelligence Tool)라고 생각하면 됩니다.
'데이터 엔지니어링' 카테고리의 다른 글
[빅데이터를 지탱하는 기술] 빅데이터 시대의 데이터 분석 # 2 (0) | 2023.04.18 |
---|---|
[빅데이터를 지탱하는 기술] 빅데이터 시대의 데이터 분석 # 1 (0) | 2023.04.11 |
[빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 7 (0) | 2023.03.29 |
[빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 6 (0) | 2023.03.28 |
[빅데이터를 지탱하는 기술] 트위터 API를 이용한 데이터 파이프라인 만들기 # 5 (0) | 2023.03.28 |