오늘날 정보계를 중심으로 한 데이터웨어하우스(DW)와 비즈니스 인텔리전스(BI)는 큰 변혁을 맞고 있다. 그 중심에는 다양한 접점에서 발생하는 각종 데이터를 중심으로 한 빅 데이터(Big Data) 및 연관 기술이 코어(Core)로 등장하고 있고 이러한 빅데이터는 이전에 정보계를 구축하면서 경험한 각종 정보통신 기술, 그리고 분석에 필요한 다양한 솔루션이 새롭게 대두되고 있다. 이번 여기서는 빅 데이터의 개념에서부터 구성, 그리고 기존 정보계와 빅 데이터의 차이점에서 대해서 알아보겠다.
최신 기종의 비행기에서는 엔진 한 개당 30분 동안 약 10TB의 데이터가 발생하고 공항의 화물이 비행기에 실리는 동안 약 3만5천 개의 센서에서 발생하는 데이터로 화물을 감시하게 되어 승객이 맡긴 화물이 비행기에 안 실릴 확률이 0.0039%라고 한다. 뿐만 아니라 각종 X-선 검색과 CCTV 등 각종 센서를 거치게 된다. 이렇듯 곳곳에서 발생하는 각종 데이터는 우리가 생각할 수 없을 만큼 방대한 데이터가 발생하게 된다.
이렇게 발생하는 각종 데이터는 물리적인 IT 이외에 데이터를 수집하고 분석하는 컨설팅부분이 매우 중요한 영역으로 자리잡고 있다. 이제는 빅 데이터가 아니라 이를 활용하는 중심기술인 빅 애널리틱스(Big Analytics)를 지향해야 할 것이다.
1. 빅 데이터와 빅 애널리틱스
최근 우리는 엄청난 데이터의 흐름 속에서 많은 정보와 함께 살아가고 있다. 테라바이트(TB; Tera Byte)를 넘어 페타바이트(PB: Peta Byte)라는 용어가 심심치 않게 등장하는 것이 현실이다.
거리를 걸을 때도, 전화를 걸 때도, 자동차를 운전할 때도 어떤 상황에서든 정보의 홍수 속에서 빅 데이터라는 울타리 안에서 생활하고 있다.
과거에 빅 데이터는 우리가 상상할 수 없는 많은 양의 데이터를 의미하였지만 지금의 빅 데이터는 많은 양의 데이터를 저장, 관리, 분석하여 미래에 대한 통찰력을 제공하는 데이터의 Set을 빅 데이터라 정의하고 있다.
이러한 빅 데이터의 의미는 기존의 수많은 IT 벤더나 컨설팅사, 그리고 이용자마다 각각 의미를 다르게 정의하고 있는 것이 현실이다.
따라서, 여기서는 빅 데이터를 이해하고 기존 정보계 시스템과 빅 데이터를 각각 비교하여 서로를 이해하는 방향으로 설명하겠다.
빅 데이터에서 말하는 데이터는 기존 정보계에서 보는 단순한 정형 데이터뿐만 아니라 다양한 형태의 정보를 포함하고 있다.
① Structured Data : RDBMS를 중심으로 한 고정형 필드에 저장된 데이터, ② Semi Structured Data : HTML 등과 같은 포맷의 스키마를 포함하는 데이터, ③ Unstructured Data : 가변길이 TEXT 데이터, 각종 이미지 파일 MPEG 등과 같은 각종 동영상, Streaming Data 등 고정된 필드에 저장 되지 않은 데이터 등과 같이 정의할 수 있다.
이러한 데이터의 출처는 다양한 부분에서 만들어질 수 있다.
① 각종 SNS에서 발행되는 각종 Social Network Opinion Data ② 각종 인터넷 사이트에서 생성되어지는 TEXT 형태의 데이터, 인덱스, 동영상, 각종 사진 Data ③ RFID, CCTV, 센서, 모바일 등에서 만들어지는 다양한 형태의 데이터 ④ Web Log, Network Log, Traffic Log 등 로그 정보를 기반으로 하는 로그 데이터 ⑤ 인터넷 상거래에서 발행되는 상품, 기업, 의견, 구매 데이터 등 다양한 형태의 수많은 데이터가 생성되고 있다.
이러한 데이터의 일부는 지금도 많은 부분이 버려지고 있는 것이 현실이다. 어떻게 보면 버려지고 있는 많은 데이터를 지금까지는 중요하게 생각하고 있지 않았고 저장한다고 하더라도 과거의 IT가 감당하기 어려운 영역이었기 때문이다.
어떻게 보면 빅 데이터라는 시대의 흐름이 새로운 분석 영역을 통해서 새로운 Insight를 제공하게 되는데 이것은 빅 데이터의 빅 애널리틱스를 통해서 가능하게 된다.
빅 데이터를 성공적으로 구현하기 위해서는 아래와 같은 사항이 필요하게 된다. 일반적으로 정보계를 구축할 때 가장 중요한 부분은 다음과 같다.
① 업무 분석 : 사용자의 업무 협의 하여 요구사항 분석을 한다.
② 업무 분석을 통하여 정확한 시스템 데이터 Size를 산출한다.
③ 전체적인 시스템 Configuration을 작성하고 정보계 시스템에 대한 Spec을 산정하고 적합한 하드웨어 및 솔루션(DataBase, ETL, OLAP) 등을 선정하다.
④ 구현 프로젝트를 진행한다.
약간의 절차상 차이가 있기는 하지만 위와 같은 형태로 프로젝트를 진행한다. 하지만 빅 데이터 시스템을 구축하기 위해서는 이전에 미리 사전에 검토하거나 준비를 해야 될 사항이 있다.
이것은 성공적인 빅 데이터 시스템을 구축하기 위한 전략으로 꼭 필요한 부분이다.
첫째, 어떠한 데이터를 수집하여 저장할 것인지 아니면 어떻게 활용할 것인지 하는 부분에 대해서 고민해야 할 것이다.
이러한 부분은 고객들과 빅 데이터에 대해서 여러 가지 협의를 할 때 가장 중요하게 생각하는 부분이다. 뿐만 아니라 어떠한 데이터를 통하여 어떠한 분석을 할 것인지는 기존의 정보계 구축 경험을 가지고는 쉽게 도출해 내기는 어려울 것이다.
둘째, 현재 빅 데이터 시스템을 구축하기 위해서는 우리가 경험하지 못한 새로운 기술을 접하기 때문에 이 부분에 대한 이해가 반드시 필요하게 된다.
예를 들어 대용량 분산처리에 대한 프레임워크를 이해하고 있고 다양한 오픈소스 및 애플리케이션 그리고 각 벤더사가 바라보는 기술적인 요소를 반드시 검토해야 하기 때문이다.
셋째, 우리가 현업으로 표현하는 데이터 분석가(Analyst)는 이전에 분석가와는 분석 부분에 있어서 많은 차이가 있다. 최근에는 데이터 사이언티스트(Data Scientist)라는 용어와 함께 이전의 분석가들이 데이터 사이언티스트로 영역을 넓히고 있고 분석의 깊이도 매우 깊어지고 있다.
넷째, 성공적인 빅 데이터를 구현하기 위해서는 위의 요소 이외에도 새로운 시각에서 데이터를 바라보는 시각의 전환이 필요하다. 우리가 무심코 저장하고 버리는 수많은 데이터 속에서 우리가 원하는 패턴을 찾고 그 속에서 우리가 원하는 통찰력을 얻기 위해서는 기존에 기 구축된 정보계 시스템과 빅 데이터 시스템 속에서 연관관계를 찾고 부단히 노력해야 하는 과정이 필요할 것이다.
3. 빅 데이터 3가지 구성 요소
우리가 빅 데이터를 얘기하는 3가지 요소로 Volume, Velocity, Variety를 얘기한다.
첫째, Volume은 저장할 데이터의 양을 얘기한다.
페타바이트(1페타바이트는 1024테라바이트를 의미) 이상의 거대한 양의 데이터를 구축하는 것이 빅 데이터를 의미하는 것은 아니다. 적은 용량에서도 수집하고 가공, 분석한다면 의미 있는 정보가 생성될 수 있기 때문에 빅 데이터를 얘기할 때 Volume은 단순히 데이터의 Size가 아니라 의미 있는 데이터의 Set이 얼마나 많이 나올 수 있느냐를 의미하며 여기에서의 Volume은 의미 있는 데이터가 얼마나 많으냐를 나타내기도 한다.
둘째, Velocity는 데이터를 Real Time, near Real Time 처리의 저장 및 처리 속도를 의미한다.
흔히, 과거의 정보계는 Batch 처리를 하여 데이터를 추출하여 기존의 DW 또는 DM, ODS등에 저장한다. 이러한 Batch는 과거 정보를 기준으로 하고 있다. 하지만 빅 데이터에서 바라보는 Velocity의 개념은 데이터의 실시간 처리를 통하여 분석에 있다. 이것은 빠른 데이터의 처리에 기반을 두고 있다.
셋째, Variety는 처리되어 지는 다양한 데이터의 종류를 나타낸다.
기존 정보계에서 바라보는 데이터는 Relational Database를 기반으로 하는 정형화(Structured)된 데이터를 나타냈다면, 빅 데이터에서는 각종 SNS Site에서 게시되는 Streaming Data, 동영상, 이미지, 음성, 정형화되지 않은 TEXT, 각종 산업 현장에서 발생하는 각종 센서(M2M; Machine to Machine)에서 발생하는 센서데이터, 도로 및 거리에서 발생하는 CCTV를 기반으로 하는 동영상 데이터 등 Relational Database에서는 저장이 어려운 다양한 종류의 비정형 데이터가 주류를 이룬다. 이러한 다양한 종류의 데이터 속에서 의미를 정보를 찾기 위해서는 기존의 정보시스템과는 다른 접근이 필요하다.
이러한 구분을 통하여 빅 데이터를 바라본다면 이해하는데 많은 도움이 될 것이다.
기존 정보계 시스템의 Configuration과 빅 데이터 Configuration을 비교하고 차이점을 설명하도록 하겠다.
<그림 1>은 기존 정보계 시스템의 Configuration이다. 기존 정보계 시스템에서는 소스 시스템은 사내에 존재하는 기간계 시스템의 소스 데이터를 근거로 하고 있다. 이러한 소스 데이터로는 기간계 애플리케이션에서 발생하는 각종 Transaction Data를 주로 하며 정규화 또는 비정규화된 각종 SAM File 등이 포함될 수 있다.
■ 그림 1 정보계 시스템 구성도
이러한 데이터를 ETL((Extraction, Transformation, Loading) 작업을 통하여 DW(Dataware House 또는 ODS(Operational Data Store)에 적재를 한다. 적재를 할 때 Schema와 Modeling을 통하여 사전에 설계된 Database에 적재를 하고 이렇게 적재된 데이터를 OLAP(On-line Analytical Processing)을 통하여 정형/비정형 분석을 한다.
하지만 빅 데이터에서는 이러한 부분이 다른 Configuration, 다른 절차를 통하여 분석하게 된다.
<그림 2>는 빅 데이터를 보는 시각에 따라 차이는 있지만 일반적인 빅 데이터의 Configuration을 나타낸 것이다.
■ 그림 2 빅 데이터 시스템 구성도
데이터를 각종 Source 시스템에서 Web Crawler를 통하거나 별도의 추출 솔루션을 통해서 데이터를 No SQL Database(Data Strore)에 저장을 한다. 부가설명을 하면 No SQL DB라고 해서 별도의 SQL이 없는 것은 아니다. 이렇게 저장된 다양한 형태의 각종 데이터는 4가지 종류의 특성에 맞는 저장소에 저장한다. 이러한 저장소는 흔히 구분에 따라 Mongo DB, Cassandra 같은 No SQL Database 또는 Data Store에 저장을 한다.
이러한 저장형태는 No-SQL Database로 저장하는 이유는 기존의 RDBMS(Relational Data Base)는 ACID(Atomicity, Consistency, Isolation, Durability)를 지원하여 수평적으로 확장하는 것이 거의 불가능하였다. 이러한 것을 해결하기 위해서 여러 가지 해결 방법이 제시되고 있지만 결국 시스템의 성능 저하로 이어지게 된다. 이러한 이유로 대용량 분산 처리 시스템이 나타나게 되었는데 이러한 제품군을 일반적으로 No SQL이라고 부른다.
이렇게 저장된 데이터 기존의 OLAP이라고 하는 분석 솔루션을 통하여 분석하기도 하고 Hadoop과 같은 분산처리 프레임워크와 R과 같은 통계 분석 및 시각화 가능한 언어 및 분석엔진을 통해서 분석된 정보를 기반으로 패턴을 도출하고 이를 시각화(Visualization) 처리를 하기도 한다.
4. 결 론
지금까지 빅 데이터의 개념에서부터 구성, 그리고 기존 정보계와 빅 데이터의 차이점에서 대해서 알았보았고 이후 연재되는 기고를 통해서 다양한 기술적 접근에 대해서 설명할 예정이다.
앞에서도 언급하였던 빅 데이터는 다양한 빅 데이터 처리 기술을 통하여 빅 애널리틱스로 진화하고 있는 과정이다.
빅 데이터는 우리가 상상하지 못했던 수많은 데이터 속에서 의미 있는 분석 정보를 창출하여 시시각각으로 변화하고 있는 비즈니스 환경 속에서 경쟁력을 강화하는 유일한 수단으로 자리 잡을 것이다.
▶▶ 필자는 전산공무원으로 사회생활을 시작하였고, 그 후 왕컴퓨터코리아에서 메인프레임 시스템의 시스템 엔지니어로서 은행의 메인프레임 및 Swift시스템을 기술지원 하다가 미국 본사의 EASTMAN KODAK으로 사업부가 합병되어 EDS코리아의 컨설턴트로 옮겨 컨설팅 업무를 하였다. 이후 NCR테라데이타로 옮겨 DW에 첫발을 들여놓게 되었고 계속 정보계 관련 업무를 진행해 왔다. 또 서강대학교 경제대학원 IT경제학 석사를 졸업한 그는 2004년도에 대한민국정부에서 신지식인으로 선정되었고 국가경쟁력 강화라는 서훈이유로 행정자치부장관 표창을 받았다. 그리고 가입 기업 수가 약 6,000여 개인 중국시장을 공략하려는 사람들의 모임 대표를 맡고 있고 이테크시스템의 이사로 근무하며 정보계 및 빅데이터 관련 업무를 하고 있다. 관심 분야는 DW, BI, 빅데이터 등이다.