반복내용 건너뛰기(skip to main content) 본문 바로가기(Go body) 메뉴 바로가기(Go Menu)
G03-8236672469

이영상 데이터스트림즈 대표, 차세대 빅데이터 플랫폼 시장에서 앞서 가겠다

NSP통신, 박유니 기자, 2021-05-31 09:00 KRD8
#데이터스트림즈

(서울=NSP통신) 박유니 기자 = 디지털 전환(DX)이 성공적으로 이루어지기 위해서는 데이터를 안전하게 관리하고 효율적으로 처리할 수 있는 기술이 필요하다. 기업의 데이터 관리 능력이 뒷받침되지 않는 이상 비즈니스의 성장을 기대하기란 이제 어려운 시대가 됐다. 경영자들이 의미 있는 통찰력(insight)을 얻기 위해서 데이터를 관리, 변환 및 준비하는 데 적절한 IT 인프라와 프로세스가 마련돼야 한다. 그러나 광범위하게 분산된 데이터의 효율적인 활용방안의 부재와 데이터 관리 미흡으로 가치 있는 데이터를 얻기란 결코 쉬운 일이 아니다.

데이터 웨어하우스(DW)에서 데이터 레이크를 거치면서 빅데이터 플랫폼의 중심축으로서 ‘데이터 패브릭’이 주목을 받고 있다. 데이터 패브릭은 ‘직물(fabric)’처럼 교차되어 엮어진 조화로운 연결망의 특성에서 착안한 이름으로 서로 다른 리소스들을 하나의 플랫폼에 통합시키고 데이터 관리를 단순화하려는 새로운 디자인 개념(concept)이자 아키텍처(architecture) 전략이다.

NSP통신-이영상 대표 (데이터스트림즈 제공)
이영상 대표 (데이터스트림즈 제공)

이러한 개념이 알려지기 전부터 유사한 제품을 설계하고 개발해온 기업이 있다. 데이터스트림즈이다. 모든 데이터를 하나의 확장 가능한 플랫폼으로 통합시켜 데이터의 저장 장소에 관계없이 안전하고 쉽게 데이터에 접근할 수 있는 환경을 만들기 위해 지난 20년간 내공을 쌓아온 빅데이터 플랫폼 전문 기업이다.

-빅데이터 시대 데이터관리 이슈는 무엇인가?
빅데이터 시대 데이터 관리의 핵심은 데이터 통합이라 생각한다. 컴퓨팅 파워의 발전과 DW 개념이 들어서면서 기존의 관계형 DB만으로는 한계에 부딪혔다. 지금까지 기업 내부 시스템 내 데이터는 규모가 크지 않고 비교적 잘 가공된 구조화된 데이터가 주를 이루었다. 또한 이러한 데이터의 대부분은 별도의 데이터 저장소에 수집〮저장되어 왔다. 그러나 빅데이터 시대가 오면서 데이터의 양적 증가뿐 아니라 정형, 비정형, 비구조화된 데이터까지 처리해야 하는 등 데이터의 복잡성이 증가했다.

G03-8236672469

기존의 애플리케이션과 빅데이터를 효율적으로 융합하려면 데이터 통합을 제대로 해야 한다. 기존 DW와 연계해 줄 데이터 통합 전략이 없으면 데이터 활용 가능성이 단절되기 때문이다. 서로 다른 데이터 소스의 정보를 모아 효율적으로 처리될 수 있게 만듦으로써 특정 업체의 솔루션을 쓰건 그렇지 않건, 여러 데이터 출처를 아우를 수 있는 기술적 해법이 필요하다. 그래야만 데이터를 적재적소에 잘 활용하고 분석하여 더 높은 가치를 창출하고 유용한 정보를 얻는 최종 목적지에 도달할 수 있다. ETL 기술을 활용한 데이터 통합을 기반으로 메타데이터를 관리하여 데이터 흐름 관리를 하고 여기에 데이터 가상화 기술까지 더해 A부터 Z까지 데이터 거버넌스 개념으로 접근하는 것이 중요하다.

-데이터 흐름관리가 왜 중요한가?
메타데이터라는 체계에 기업의 데이터 정보들이 다 들어오고 이것을 바탕으로 데이터 품질 관리를 한다. 그런데 품질관리를 할 때 고객들은 결국 원천 데이터 소스에서 데이터를 수집해서 통합하고 분석하는 일련의 과정을 보고 싶어 한다. 이를 위해서는 어떤 프로그램을 통하건 데이터를 받아 분석단까지 오는 경로를 추적해서 시각화할 수 있는 기술이 필요하다. 우리는 이러한 데이터 흐름 관리 솔루션인 큐트랙을 자체 개발해 KB국민은행과 KB국민카드 등 금융권을 중심으로 레퍼런스를 구축하고 있다. 데이터 흐름 관리라는 것이 실제 애플리케이션 프로그램에서 파생된 흐름을 다시 찾아내야 하기 때문에 상당히 난이도가 있는 기술이다. 우리는 ETL 데이터 통합 툴인 테라스트림(TeraStream)을 보유하고 있기 때문에 추적을 보다 용이하게 구현할 수 있다. 물론 PaaS 영향도 분석 툴을 사용하는 타사도 있지만 흐름을 찾아내는 기술은 또 별개다. 특히 메타데이터를 보유하면서도 데이터 거버넌스 정도가 일정 수준 이상 되어야지만 그 기술을 활용할 수 있다.

-최근 개발한 데이터 가상화 기술이란 무엇인가?
빅데이터는 본질적으로 이기종(Heterogeneous) 이기 때문에 데이터 가상화는 데이터 통합의 필수적 조건이다. 기업 내 모든 데이터가 데이터 거버넌스 체계 안으로 들어오고 난 이후로는 분석가나 사용자는 더 이상 특정 데이터가 어떤 데이터베이스 안에 있는지 일일이 알 필요가 없다. 데이터 가상화는 여러 곳에 흩어져 있는 데이터 소스들을 데이터의 유형이나 위치에 관계없이, 메타데이터로 접근해 물리적 이동이 아닌 논리적 계층에서 통합하는 기술이다. 즉, 일종의 메타데이터 지도만 보고도 손쉽게 필요한 데이터를 불러오고 조합할 수 있게 되는 것이다. 빅데이터 용어로는 ‘데이터 카탈로그(data catalog)’라 불리는 메타데이터 툴을 만들고 표준화, 정형화하는 등의 정비 과정을 거쳐야 비로소 ‘활용’을 할 수 있다. 이러한 필요성 때문에 최근 데이터 가상화 기술을 적용한 ‘TeraONE Super Query’ 제품을 출시했다. 데이터 가상화 기술이 없다면 일일이 데이터를 가져오고 비교해본 후 맞지 않으면 바꿔줘야 하는 등 비효율적인 과정을 거쳐야 한다. 여기에는 필연적으로 많은 비용이 따르고 결국 데이터 활용은 중단할 수밖에 없다.

-주력 솔루션인 테라원에 관한 설명은?
테라원(TeraONE™)은 데이터스트림즈의 빅데이터 플랫폼으로 아파치 하둡을 기반으로 자사 ETL 및 인메모리(in-memory) 기술을 적용한 제품이다. 특정 데이터베이스에 의존하는 것이 아니고, 어떤 데이터베이스에 있든지 빅데이터든 정형 데이터든 하나의 저장소 안에 끌고 와서 분석하고 실시간으로 대응하는 것이다. 고객이 가장 많이 사용하는 최신 오픈소스와 자사 제품을 자체 패키징 해 최적의 아키텍처를 제공하고 있다.

데이터 패브릭이라는 용어가 처음 알려지기 시작한 것은 2018년 시장조사 기업인 포레스트 리서치(Forrester Research)에서 데이터 레이크(Data Lake)의 다음 단계인 차세대 빅데이터 플랫폼에 해당하는 기술로서 제시한 것이다. 그러나 사실 우리는 테라원을 처음 설계할 때부터 그러한 청사진 아래 진행했었는데 미국에서 발표한 구조와 거의 유사해서 우리도 깜짝 놀랐었다. 데이터 패브릭이라는 개념으로 접근하는 회사는 국내에서는 찾아보기 힘들며 세계적으로도 드물다.

-데이터스트림즈의 빅데이터 플랫폼이 갖는 국내외 경쟁력은?
지난 20년간 데이터 수집·통합, 데이터 거버넌스 관리, 빅데이터 플랫폼에 이르기까지 기술 개발과 제품 경쟁력을 바탕으로 성장해왔다. 우리 회사의 가치는 메타데이터 중심의 데이터 거버넌스 시장에서 단연 돋보인다. 메타데이터 관리 솔루션을 중심으로 데이터 품질 및 흐름 관리, 마스터 데이터관리(MDM), ETL까지 메타를 중심으로 통합 및 패키징하는 전략(m-DOSA, metaData Oriented System Architecture)을 변함없이 유지하고 있기 때문이다.

사실 제품 자체를 개발하는 것보다 패키징하고 영구적으로 유지 및 보수를 지속적으로 해나가는 것이 더 어렵다. 책임 있는 전문 소프트웨어 기업으로 성장하기 위해서는 제품 하나 개발했다고 해서 끝나는 것이 아니라 연구 인력들을 충분히 유지, 확보하여 현장에서 실시간 변화에 발맞추어 대응해야 한다. 기술연구소에 50명이 넘는 연구인력을 두고 있고 시장 상황과 고객의 비즈니스 요구에 맞추어 발전된 기능들을 개발하여 패치해 주는 등 10년째 차별화된 전략을 펼치고 있다. 비록 외국 기업보다 국내 기업의 유지 보수요율이 현실적으로 낮은 관행 탓에 어려움이 많지만 앞장서서 패키지화를 주도하는 데에는 분명 그만한 가치가 있다고 본다.

-요즘 관심을 갖고 있다는 메타데이터 상세화(Specification)란?
메타데이터 상세화(Specification)에 관심을 갖고 연구 개발하는 중이다. 메타데이터를 아주 상세한 수준까지 기술(description) 하는 작업이다. 지금은 DB에 있는 메타데이터 정도지만 향후 사람들의 행동과 절차 하나하나를 메타데이터화 하고 싶다. 소프트웨어라는 것은 결국 모든 분야의 하드웨어를 융합시키는 역할을 하고 영역 간 벽을 없앰으로써 기술발전을 도모해 산업과 인간 행태를 바꾸는 것이다. 4차 산업혁명이란 이러한 네트워킹, 소프트웨어 발전을 통해 비즈니스를 창조하는 것이고 거기에서 필연적으로 생겨나는 것이 데이터이다. 이 모든 데이터를 어떻게 정의(define)하고 분류하고 다룰 것인가가 미래의 DX로 가는 기초가 될 것이다. 그것이 바로 메타데이터 시스템이다.

-빅데이터 생태계의 방향에 대해 어떻게 생각하나?
진정성이 깃든 혁신이 일어나는 방향으로 나아갔으면 한다. 글로벌 IT 산업을 주도하는 실리콘밸리의 혁신가들을 포함해 PC 산업의 발전은 히피 문화로 대표되는 1960년대 대항문화(Counter Culture)에 뿌리를 두고 있다. 당시 IBM 등 미국 동부 지역의 메인 프레임 컴퓨터 산업과 비교할 때 개인이 독립적으로 정보를 보관하고 관리할 수 있도록 해주는 PC는 자유와 탈권력을 의미했다. 여기에 오픈소스 빅데이터 혁명의 시초를 알린 건 히피 문화를 바탕으로 미국 서부에서 탄생한 버클리 유닉스(BSD)였다. 뒤이어 무료 오픈소스 운영체제 리눅스(Linux)가 본격적인 오픈소스 프로젝트를 이어갔다. 전통적인 메인 프레임과 달리 ‘공유’의 개념을 내세우며 창조와 혁신을 이끌어나갈 수 있었던 것은 기존 질서를 뒤집어 새로운 가치 질서를 만들고자 했던 히피 문화의 유산이라 볼 수 있다. 공유 기반의 진정성 있는 히피 정신이 보수의 대안으로 새로운 문화를 창조해 결국 미국을 먹여 살리는 힘이 된 것이라 생각한다. 우리나라에서도 이렇듯 진정성 있는 도전과 혁신이 창조적 파괴로 피어날 수 있도록 사회 구조적 제반 여건도 뒷받침됐으면 한다.

-비즈니스 확장 계획은?
국내에서는 빅데이터 플랫폼을 활용한 데이터 거래소, 안심구역, 차세대 CRM, 스마트 물류 등과 같은 신규 데이터 비즈니스 모델을 AI 기술과 접목하여 PaaS나 SaaS 기반에서 서비스할 계획이다. 이를 위해 네이버 클라우드, AWS 등과 같은 국내외 클라우드 전문 기업과 비즈니스 파트너 협업을 통해 과금 서비스 및 해외 진출 기회를 모색하고 있다. 올해는 창립 20주년을 맞이한 만큼 코스닥 기술특례상장을 목표로 하고 있다. 글로벌 전략으로는 제품과 기술을 통해 해외자본을 유치하고 미국 현지 브랜드화를 진행하여 유수의 글로벌 소프트웨어 기업들과 경쟁할 계획이다. 다양한 글로벌 퍼블릭 클라우드 환경에서 데이터 통합, 데이터 거버넌스 관리, 빅데이터 플랫폼 및 분석 서비스 제공으로 해외 고객 확보에 도전하고 싶다.

-경영 철학과 아직도 못 이룬 꿈이 있다면?
데이터스트림즈를 처음 시작할 때부터 데이터는 그 속성에 맞게 처리해야 한다는 생각을 가지고 있었다. 얼핏 보면 쉬워 보이지만 실제로 그것이 가능하기 위해서는 다양한 기술과 제반 환경들이 조화를 이루어야 한다. 한 폭의 그림을 완성하기 위해 맞춰나가야 하는 조각들이 무수히 많다. 기업을 운영하는 대표로서 적자가 나는 제품이나 서비스들을 과감하게 정리하고 당장 수익이 나는 일들에 집중해야 하니 고민이 깊었던 적도 있었다. 그러나 그때마다 우리가 잘할 수 있는 분야를 더 집중해서 밀고 나간다면 자연스레 따라올 것이라는 믿음을 지켜왔다.

눈앞의 성과와 이익만을 따지기 시작하면 당장은 눈에 보이지 않지만 서서히 목표하던 한 폭의 그림과는 점점 멀어질 수 있음을 경계했다. 그 결과 힘든 순간에도 포기하지 않고 꾸준히 개발해온 제품들이 서로 간 시너지효과를 내면서 내가 그리고자 했던 한 폭의 그림이 조금씩 완성되어 가고 있음에 감사한다. 성장 비전을 함께 공유하며 직원이 행복한 회사, 꿈을 이룰 수 있는 기업으로 키워나가고 싶다.

NSP통신 박유니 기자 ynpark@nspna.com
저작권자ⓒ 한국의 경제뉴스통신사 NSP통신·NSP TV. 무단전재-재배포 금지.