반복내용 건너뛰기(skip to main content) 본문 바로가기(Go body) 메뉴 바로가기(Go Menu)
G03-8236672469

특별 기고

정부출연연구기관…통합 R&D 빅데이터 플랫폼 필요

NSP통신, NSP인사 기자, 2021-01-20 08:57 KRD7
#니츠

양태연 과학기술연결플랫폼 사회적협동조합 감사

(서울=NSP통신) NSP인사 기자 = 최근 정부는 지능화 기반 구축을 위해 빅데이터 기술을 혁신성장동력으로 지정하고, 2022년까지 분석 예측의 정밀도 향상, 양질의 전문 빅데이터 구축을 목표로 지원방안을 마련해 해당 분야의 조기 상용화 여건을 조성하고 있다. 또 금융, 통신, 교통 등 분야별 전문 빅데이터 구축과 데이터 개방 유통 및 연계 활용을 촉진하고, 현장에서 활용 가능한 실증 시범 사업을 추진해 성공사례를 확산하는 등의 지원방안을 마련하고 있다.

이러한 상황에서 연구기관들의 역할의 중요성은 아무리 강조해도 지나치지 않다. 따라서 연구기관들의 연구 생산성을 확 끌어 올리고, 국가 R&D 예산을 효율적으로 사용하기 위해서 통합 R&D 빅데이터 플랫폼 및 데이터 전처리 센터의 구축이 시급하다.

NSP통신-양태연 과학기술연결플랫폼 사회적협동조합 감사 (니츠 제공)
양태연 과학기술연결플랫폼 사회적협동조합 감사 (니츠 제공)

현재 대덕연구단지에는 정보통신, 기계, 화학, 에너지, 생명공학, 원자력, 항공우주, 지질자원, 해양과학기술, 기초과학, 천문, 국방과학, 국가보안, 핵융합에너지, 나노, 한의학등 연구 분야가 다른 출연연구기관들이 분야별로 다양한 형태의 연구 개발을 하고 있다. 그리고 연구 개발 생산성을 높이기 위해서는 필수적으로 빅데이터를 활용할 수밖에 없도록 연구 환경이 변화되고 있다.

연구 개발에서 필요한 데이터를 분석하여 활용하기 위해서는 화학, 정보통신, 생명공학, 기계, 해양 기후, 천문학등 다양한 유형의 빅데이터를 다루는 기술들이 필요하다. 이를 위해서는 수많은 원시 데이터의 수집과 분산 저장, 데이터의 전처리, 데이터 축소, 데이터 변환, 데이터 통합, 데이터 비식별화 및 데이터 보호등이 필요하며, 데이터의 품질 및 안정성을 보장하기 위한 방안이 절실히 요구된다.

G03-8236672469

또한 연구를 위한 클라우드 기반의 빅데이터 플랫폼 구축, 정형 및 비정형 빅데이터를 저장하기 위한 분산 데이터베이스, 빅데이터 처리 및 분석 기술, 수많은 분석 및 예측연구모델 및 결과물에 대한 형상관리, 개인정보 보호를 위한 비식별화 처리 및 인프라등을 보호하기 위한 통합 보안 관리 등 환경 구축이 필요하다. 또한 분야 별로 IT 및 분석 전문인력들을 확보하여 연구분야에 투입시켜야 한다. 그리고 지속적으로 안정적 운영을 위한 많은 예산과 분야별 전문 인력을 확보하는 것은 현실적으로 쉽지 않다.

특히 데이터의 전처리 분야는 빅데이터 처리 중 대부분의 시간을 할애해야 할 만큼 다양한 기술과 데이터 특성을 파악해야 한다. 따라서 정보통신을 전문적으로 연구하는 한국전자통신연구소를 제외한 대부분의 연구소들은 이러한 환경을 구축하고 지속적으로 운영하는 것이 쉽지 않으며, 또한 많은 단계에서 연구 분야별 전문인력을 확충하지 않는 한 연구하는 과정에서 많은 어려움을 겪을 수밖에 없다.

현재 연구기관별로 각각의 특성에 맞게 연구 개발을 위한 빅데이터를 처리하기 위한 환경을 구축해 연구 분야별 데이터의 공유가 쉽지 않아 프로젝트를 통한 협력이 아니면 융합연구를 위한 환경이 열악하다.

출연연구기관에서 연구하고 있는 수많은 연구 주제들이 다루는 데이터의 유형을 보면 시퀀스 유형의 데이터와 그래프 네트워크 유형의 데이터, 그리고 공간 데이터나 시공간 데이터, CPS, 멀티미디어 데이터, 텍스트 데이터, 데이터 스트림 등 다양한 형태의 데이터들을 다루고 있다. 각 데이터 유형의 특성 및 처리 방식을 살펴본다.

시계열 데이터는 단위 시간(예: 분 단위, 시간 단위, 일 단위)의 순서대로 숫자 데이터가 길게 나열되어 있는 시퀀스 데이터를 말한다. 시계열 데이터는 자연스러운 일상의 여건이나 주식 시장과 같은 경제 영역, 그리고 과학, 의료 등에서 많이 찾아볼 수 있다.

기호 시퀀스 데이터는 어떤 사건 또는 숫자가 아닌 일반 데이터의 시퀀스를 말한다. 기호 시퀀스를 구성하는 관측 데이터는 반드시 시간의 구간 순서와 맞아 떨어질 필요가 없다. 상당수 기호 시퀀스의 경우, 중간 여백(사건이 없는 구간)이 있어도 문제가 되지 않는다. 고객 쇼핑 흐름이나 웹 클릭 흐름, 또는 과학이나 공학, 자연계나 사회 개발에서 이루어지는 일련의 사건 등을 기호 시퀀스의 사례로 볼 수 있다.

생물학 시퀀스 데이터에는 DNA 시퀀스 또는 단백질 시퀀스 등이 있다. 보통 무척 길고 중요하면서도 복잡한 숨은 맥락상의 의미를 담고 있다. 주로 염기서열 또는 아미노산의 시퀀스를 말한다. 생물학 시퀀스 분석은 생물학 시퀀스의 비교, 정렬, 인덱스 정리, 분석하는 방법으로, 현대 생물학과 생명정보학의 핵심을 이룬다.

그래프는 접합, 시퀀스, 격자나 트리보다 더 추상적인 데이터 구조이다. 인터넷, 소셜 네트워크, 정보 네트워크, 생물학 네트워크, 생명 정보학, 화학 정보학, 시각 인식, 멀티미디어와 텍스트 추출 등 다양한 분야에서 그래프를 활용한다. 덕분에 그래프/네트워크 마이닝의 중요성이 나날이 증가하면서 연구도 따라서 늘어나는 중이다.

그래프 패턴 마이닝은 하나, 혹은 한 집단 그래프 중에서 자주 등장하는 부분 그래프, 또는 (부분)그래프 패턴을 찾는 분석이다. 그래프 패턴의 빈도와 차이를 통해 함축적이면서도 효과적인 그래프 검색 구조를 만들 수도 있다. 그래프 검색 구조와 여러 그래프의 특성을 조합, 추산하면 구조 유사성 검색이 가능하다.

CPS(가상 현실 시스템)는 실생활과 가상 환경의 상호작용 시스템을 말한다. CPS 시스템은 여러 구성 요소가 서로 연결되어 있어 거대한 이계열 가상 현실 네트워크를 이룬다.

CPS에서 유래한 데이터는 동적이고, 순간적이며, 노이즈가 많고 일관성이 떨어지면서 상호 의존성이 있고, 다양한 시공간 정보가 포함되어 있다. 그리고 실시간 의사 결정에 지극히 중요하다. 단순한 시공간 데이터 마이닝과 비교해 보면, CPS 데이터는 거대한 정보를 바탕에 두고 현재의 상황을 파악, 실시간 연산과 즉각적인 반응으로 연결되어야 한다.

시공간 데이터는 시간과 공간 양쪽에 관련된 데이터를 말한다. 도시와 지역의 발전 이력의 탐색, 기후 패턴 조사, 지진과 태풍의 예측, 지구 온난화 경향의 탐색 등이 시공간 데이터마이닝의 사례라 할 수 있다. 시공간 데이터 마이닝의 중요성이 높아가는 것과 함께 모바일 장치, GPS 장치와 인터넷 지도 서비스, 기후 서비스의 보급과 지적 데이터의 디지털화, 인공위성과 RFID, 센서, 무성 통신, 영상 기술이 발전함에 따라 그 활용도 광범위하게 늘어나고 있다.

다양한 시공간 데이터 중에서도 동체가 특히 중요하다. 동체 데이터 마이닝의 대표적인 사례로는 다수 운동 대상의 행동 패턴을 들 수 있다. 그리고 하나 혹은 다수의 이동하는 대상에 대한 주기 행동 패턴과 이동 패턴, 클러스터, 모델, 아웃라이어 분석 등이 있다. 그 외 숫자 및 텍스트 데이터, 웹 데이터, 스트림 데이터등 다양한 종류의 복잡한 데이터 형식을 가지고 있다.

정부출연연구기관의 협력적 융합연구 촉진방안(과학기술정책연구원, 정책연구 2017-12)에 따르면 융합을 위한 연구진들간 공유·교류하는 대상은 주로 기술지식(95%) > 장비 및 설비(70%) > 업무노하우 (58%) > 연구인력(40%) > 연구자금(16%) 순으로 나타나 있다. 여기서 기술지식이나 장비 및 설비등은 데이터 및 인프라에 관한 것으로 해석할 수 있으며, 이를 위해서는 각 연구원별 수집, 가공된 빅데이타들을 상호 연계시킨 다양한 형태의 융합 연구를 통해 새로운 미래 가치를 창출할 수 있는 연구를 할 수 있도록 환경을 구축할 필요성이 요구되고 있다. 화학과 생명공학, 기계와 IT, 화학과 에너지등 연구 분야별 필요한 데이터를 공유하고 사용 가능토록 하며, 지속적으로 데이터 확보가 가능하도록 환경을 구축할 필요가 있다.

이 센터로부터 생성된 원시 데이터 및 분석 데이터 중 많은 부분을 초.중등 학교에서의 AI 및 빅데이터를 교육하기 위한 데이터로 활용될 수 있을 것이다. 즉 교과서 위주보다는 실제 각 연구기관에서 제공할 수 있는 컨텐츠 및 데이터를 이용하여 빅데이터 및 AI 교육이 가능하도록 함으로써 좀더 현실적인 교육이 가능할 것이다. 각 대학에서도 대부분의 학과별로 AI, 빅데이터 수업을 할 경우, 가장 어려운 부분이 데이터 확보를 이 센터를 활용하여 효율적인 수업이 가능하도록 환경을 제공한다.

또한 빅데이터를 처리하고 분석할 수 없는 수많은 중소벤처기업이 직접 데이터를 활용할 수 있도록 지원하고, 또한 데이터를 가지고 있는 기업들에게는 데이터를 전처리하고 분석하여 제공할 수 있도록 하여 기업의 생산성을 높이거나 원가를 절감시킬 수 있도록 지원할 수 있다.

대전시 등 지자체에서 발생하는 전기, 통신, 상하수도 처리, 교통, 범죄, 복지, 교육 분야에서 발생 되는 데이터를 구축된 빅데이터 플랫폼을 이용하여 데이터를 공유하도록 함으로써 R&D 데이터를 활용하여 직접 현장과 연계된 문제를 해결할 수 있는 환경이 구축될 수 있을 것이다. 수많은 스타트 벤처기업들이 공공기관에서 올려놓은 데이터를 분석/가공처리하여 공공기관에서 활용할 수 있도록 하며, 많은 서비스를 시민들에게 제공될 수 있도록 한다.

현재 대덕연구단지의 은퇴 과학자의 수가 점점 늘어남에 따라 이에 대한 대책이 시급하다. 은퇴한 과학자들의 경험과 IT 교육을 통해 센터의 고급 인력들을 채용한다면 많은 일자리가 만들어질 것이다. 또한 스타트 업 기업들의 참여 연구기관들과 공공기관, 소상공인 및 중소기업들이 경쟁력을 갖기 위해 빅데이터를 처리하고 분석하고 예측하는 수요가 발생함에 따라 이를 해결하기 위한 좋은 비즈니스가 창출될 수도 있을 것이다.

빅데이터를 수집, 저장, 전처리할 수 있는 인프라 구축과 데이터의 품질 검증, 비식별화 및 데이터 보안 체계, 불필요한 데이터의 폐기 절차, 데이터의 유통 플랫폼, 데이터의 가치 평가 등을 지원할 수 있도록 하여야 한다. 또한 원시 데이터만 있는 많은 중소기업들에게 데이터 분석 및 예측 작업을 통해 기업 현장의 문제를 해결할 수 있도록 한다. 국가 차원에서 보호되어야 할 중요한 연구 데이터와 공개되어야 데이터를 분리하여 관리하며, 공개되는 데이터는 일반 기업 및 학교, 그리고 공공기관에서 활용이 가능하도록 API 등을 통한 유통 플랫폼 구축이 필요할 것이다.

공간 및 자원, 조직 확보등은 NST(과학기술연구회)를 중심으로 추진하되, 인프라 및 분산 컴퓨팅, 클라우드 환경 구축, 빅데이터 전처리 기술 등의 IT전문 인력은 ETRI에서 필요한 인력을 양성하여 제공하며, 도메인 별 전문가 그룹은 각 연구기관의 연구원 및 은퇴한 과학자들을 참여할 수 있도록 활용하는 방안이 효과적일 것으로 판단된다.

또한 학교 및 시, 공공기관, 기업들이 모두 참여 가능한 모델을 만들어 연구, 교육, 행정서비스, 일자리 창출, 기업의 비즈니스 활성화 등에 모두 공생할 수 있는 전략이 필요할 것으로 판단된다.

데이터의 전처리를 위해 소요되는 많은 시간을 연구에 집중함으로써 연구에 대한 생산성을 높일 수 있다. 빅데이터를 다루다 보면 대부분의 시간을 분석이 가능한 형태로 데이터를 수집하고 전처리하는 과정에 보내게 되는데, 이 센터를 활용함으로써 각 연구기관은 센터에서 전처리 과정을 거친 다양한 형태의 풍부한 데이터들을 이용하여 각 연구에 필요한 데이터로 분석, 예측하여 활용할 수 있다. 또한 빅데이터 인프라의 중복 투자 방지 및 데이터 처리를 위한 전문 IT인력을 활용할 수 있다.

연구기관에서 제공된 다양한 형태의 데이터를 이용하여 좀더 효율적인 융합연구를 할 수 있다. 융합연구를 하기 위한 환경으로 기술공유, 인프라 공유 등이 제일 중요한 요소로 꼽히게 되는데 많은 부분 이러한 문제를 해결할 수 있다.

현재 각 초.중등학교 및 대학에서 AI, 빅데이터 교육 및 디지털 교과서에 나오는 많은 컨텐츠를 센터의 실 데이터를 활용함으로써 교육의 질을 높일 수 있고, 많은 현장 경험을 할 수 있는 기회가 될 것이다. 또한 이러한 환경을 갖추고 있지 못한 많은 제조, 유통, 서비스를 제공하고 있는 중소벤처 기업들에게도 분석된 데이터를 활용하여 기업의 생산성을 높이고, 제품 개발에 많은 도움이 될 수 있을 것으로 기대한다.

이러한 환경을 제공하기 위해서는 많은 IT전문가, 도메인 전문가가 필요한데 현재 이미 은퇴한 과학자 및 앞으로 계속해서 나올 과학자들에게 참여할 기회가 주어진다면 현재까지의 경험을 되살려 많은 활동을 할 수 있을 것이며, 일자리 창출도 가능할 것이다.

이러한 인프라 및 데이터 활용을 시 및 공공기관과 연계하게 되면 에너지, 교통, 수도, 전기, 교육, 범죄 치안 등의 원시 데이터는 대전시를 비롯한 공공기관에서 제공하게 되며, 수많은 스타트업 기업들이 데이터 처리 및 데이터 분석에 참여함으로써 시장을 활성화할 수 있고, 이를 통한 일자리를 창출할 수 있을 것으로 기대한다.

이 R&D 통합 데이터 처리 센터가 활성화되기 위해서는 수요자이며 공급자인 연구자와 대전시를 포함한 공공기관, 그리고 수요기관인 학교, 기업체간의 Value chain이 만들어져야 가능하다. 특히 출연연구기관의 경우 연구원자들에게 독립적인 연구 및 융합 연구 과정에 실질적인 도움이 될 수 있도록 하여야 하며, 이를 위해서는 연구자들의 연구 수행 과정의 철저한 분석를 통해 공통적으로 어려움을 겪고 IT부분을 지원하여 연구에 많은 도움이 될 수 있다는 확신을 심어주는 것이 절대적으로 필요하며, 어느 정도 가시적인 효과가 있기까지 적극적 참여를 유도해야 한다. 예를 들면 현재 과학기술정보통신부에서 2020년 12월에 개통한 국가연구자정보시스템(NRI)과 상호 연계를 통해 몇 가지의 활성화 방안을 찾을 수 있다.

첫째, 연구자들의 연구결과에 대한 평가시 센터 내에서 가공된 빅데이타의 활용 빈도수를 계산하여 인센티브를 부여하는 방안을 검토해 볼 수 있다. 둘째, 연구자들이 연구 수행 시 센터에서 가공된 다른 연구기관에서 생성된 데이터를 얼마나 많이 참조하거나 활용했는지를 측정하여 연구과제 평가 시 인센티브를 부여함으로써 융합 연구를 활성화할 수 있도록 유도한다. 셋째, 연구자들이 센터의 데이터를 활용하여 연구과제를 제안할 경우, 과제 선정 시 별도의 인센티브를 제공함으로써 좀 더 적극적인 활용을 유도한다.

그 외 연구자들의 연구결과를 분석하여 맞춤형의 데이터를 추천하거나 정보를 제공할 수 있도록 지원하여 좀 더 많은 연구자가 활용할 수 있도록 한다. 또한 연구되고 있는 기술들의 상호 연계성을 시각적으로 보여 줌으로써 새로운 연구 테마를 찾는데 도움이 되도록 하며, 연구자 본인이 연구한 결과가 어떤 제품과 서비스 형태로 현장에 스며들어갈 수 있는지 실증적인 사례를 보여 줌으로써 연구에 대한 구체적인 방향과 목표를 세울 수 있도록 지원할 수 있다고 생각한다.

R&D 통합 데이터 센터를 통해 각 연구기관에서는 정보기술의 전문화된 인력 및 인프라의 확보가 없어도 연구에 필요한 빅데이타의 수집, 저장, 전처리 과정을 통해 품질이 검증된 분석 가능한 데이터를 제공받아 연구의 생산성을 높일 수 있고, 출연연구기관끼리의 융합된 데이터를 활용하여 좀 더 융합된 연구의 활성화를 기대할 수 있으리라 생각된다.

또한 출연연구기관과 기업, 그리고 학교, 공공기관 등이 상호 연계되어 빅데이터의 공급과 수요가 만날 수 있는 플랫폼을 통해 지속적으로 현장의 소리가 기초 연구 분야에 이르기까지 피드백될 수 있는 빅데이타 생태계를 구축함으로써 많은 출연연구기관에서 개발된 다양한 기술들이 연구소에 파묻혀 현장으로 이식되지 못하는 기술 이전 문제, 혹은 현장의 피드백에 빠르게 대응하지 못하는 문제를 해결할 수 있는 기반이 마련되길 기대한다.

양태연 한국전자통신연구원과 한국화학연구원에서 근무경력으로 대한민국산업현장 교수, ISMS 인증 심사원으로 활동했으며, 현재는 ㈜니츠의 대표이사를 맡고 있다. 한밭대학교 등에서 AI/빅데이터, 정보보호, 소프트웨어 아키텍처 강의 및 컨설팅을 하고 있다.

NSP통신 people@nspna.com
저작권자ⓒ 한국의 경제뉴스통신사 NSP통신·NSP TV. 무단전재-재배포 금지.