반복내용 건너뛰기(skip to main content) 본문 바로가기(Go body) 메뉴 바로가기(Go Menu)
G03-8236672469

특별기고

빅데이터와 데이터 표준화

NSP통신, NSP인사 기자, 2021-06-15 10:03 KRD7
#비욘드아이티

김계철 비욘드아이티 대표

(서울=NSP통신) NSP인사 기자 = 빅데이터(BigData)란 학자에 따라 그 정의를 달리 표현하고 있지만, 대체로 기존 데이터보다 너무 방대하여 기존의 관리 방법이나 분석 체계로는 처리하기 어려운 막대한 양의 정형 또는 비정형 데이터 집합을 말한다.

빅데이터는 스마트 기기의 빠른 확산, 소셜 네트워킹 서비스의 활성화, 사물 인터넷의 확대로 그 분량이 폭발적으로 늘어나고 있다. 이에 따라 기업, 정부, 포털 등에서는 빅 데이터를 효과적으로 분석·처리하여 미래를 예측하고, 최적의 대응 방안을 찾은 다음 이를 수익으로 연결하는 등 새로운 가치를 창출하고 있다.

예를 든다면 빅데이터를 활용하여 소비자가 원하는 키워드를 광고주에게 알려주고, 또한 배송 서비스도 여러 군데의 출발지와 도착지를 택배회사에게 알려주어 기름과 시간을 아끼고 고객에게 언제쯤 도착할 것인지를 예측하게 하여 고객이 안심할 수 있고 빠른 배송으로 만족을 시킬 수 있을 것이다.

NSP통신-김계철 대표 (비욘드아이티 제공)
김계철 대표 (비욘드아이티 제공)

그러나 빅데이터는 분석에 많은 시간이 소요되고, 장애 요인이 될 수 있는 데이터를 상당수 포함하고 있다. 따라서 빅데이터를 효율적으로 분석하기 위해 전처리라는 사전 단계를 거쳐야 한다. 이 전처리 방법을 필자는 ‘데이터 리엔지어링’이라고 이름하겠다,

G03-8236672469

그간 쇼핑몰과 같은 기업 대 소비자간 거래(B2C), 기업간 거래(B2B), 조달청의 나라장터와 같은 정부 대 기업간 거래(G2B), 민원 24와 같은 정부 대 소비자간 거래(G2C)에 대해서 많은 기대가 있었고 이를 준비하는 회사도 많이 있었다.

그렇지만 현실은 기대만큼 쉽게 활성화되고 적용되지 않고 있다. 물론 거기에는 여러 가지 복합적인 요인인 사회, 경제, 기술, 지불, 보안적인 문제 등 사회 인프라가 사실 제대로 갖추어지지 않았던 것이다. 그러나 그 중에 또 하나 무시할 수 없는 요인 중의 하나가 데이터의 정확도에 관한 문제이다.

ERP가 혈관이라면 데이터는 혈액으로 관리에 시간과 노력을 투입해야
비록 이 데이터 정확도 문제는 B2B 뿐만 아니라 우리가 이미 80년대부터 다뤄왔던 MRP(Material Requirement Planning: 자재소요량계획)와 MRP II(Manufacturing Resource Planning: 제조자원계획), ERP(Enterprise Resource Planning: 전사적자원관리)를 구축할 때 이런 문제들을 여전히 확실하게 하지 않고 성급하게 B2B로 간다면 아래와 같은 치명적인 장애요인이 있다는 것은 예나 지금이나 마찬가지다.

첫째, 대부분이 데이터 정확도 유지의 어려움에 대한 근본적인 원인이 무엇인가를 모르고 있다.
둘째, 일시적으로 노력해서 데이터 정확도를 맞추기는 하지만 데이터를 입력하는 부서나 담당자들 간의 의사소통이 일치되어 있지 않아 시간이 흐름에 따라 다시 악화가 된다.
셋째, 정확도 달성과 유지를 위한 도구가 없다.
넷째, 정확도 유지를 위한 업무 절차가 없다. 대개 일시적인 행사로 끝나버리고 지속적으로 이를 유지하고자 하는 업무 프로세스가 없다.

앞서 설명한 ERP시스템은 사내 전자상거래(EC)로 불리기도 하는데 이는 개별 기업의 정보화뿐만 아니라 전자상거래(CALS, SCM, B2B 등)의 전초 단계로서 중요성을 가진다. 80년대 중반부터 시작된 MRPII에서부터 ERP에 이르기까지 이러한 시스템을 도입한 기업들이 풀어야 했던 문제 중의 하나가 데이터의 사내 표준화였다.

도입하는 기업 입장에서 볼 때 ERP 소프트웨어 패키지가 혈관이라면 데이터는 혈액에 해당하는 필수불가결의 요소이다. 데이터란 자금만 확보되면 손쉽게 외부에서 조달되는 것이 아니라 상당한 시간과 노력을 투자하여 해결해야 하는 부분이다. 프로젝트 초기부터 운영 단계에 이르기까지 심혈을 기울여야 하는 부분이 아이템 마스터, 부품구성표(BOM: Bill of Material), 작업장(Work Center), 공정절차(Routing) 등 4대 생산 DB의 데이터 표준화이다.

아이템 마스터 DB의 많은 속성 중 첫째 속성은 품목 코드이다. 이는 고유한 속성을 갖는 특정 품목을 다른 품목과 구분하기 위해 부여한 유일한 식별코드를 말한다. 많은 사람들이 혼동하지만 유사한 속성을 가진 복수의 품목들을 묶어서 구분하는 품목분류코드와는 근본적으로 성격이 다르다.

품목코드는 기업에 따라 자재코드, 파트번호, 아이템번호, 자재번호, 품목번호 등 다양한 명칭으로 통용된다. 흔한 현상이지만 회사 내에서도 기술, 자재, 생산, 회계 등 부서마다 독자적으로 사용되기도 한다. 이러한 품목에 대한 분류 및 식별코드, 그리고 속성에 대한 데이터의 정비 없이는 전사적 통합 정보 시스템인 MRP, ERP 시스템과 B2B 시스템(e-Marketplace 및 e-Procurement)의 도입은 불가능하다. 데이터 전처리 방법인 데이터 리엔지니어링의 중요성을 강조하는 이유이다.

데이터 리엔지니어링이란 “기업 내부와 기업간 의사소통을 위해 비즈니스 데이터를 상호인식이 가능하도록 근본적으로 재설계(redesign)하고 구조화(Structure)하여 데이터의 활용을 극대화할 수 있는 형태로 만드는것”을 말한다.

다시 말하면, 아이템 마스터 DB에 등록되어 있는 품목에 대한 분류 및 식별코드, 속성에 대한 데이터를 표준화하고 구조화시키는 것이며, 이에 따르는 재고데이터, 부품구성표, 작업장, 공정절차, 기준생산일정(MPS: Master Product Schedule)에 대한 데이터를 정비하는 작업을 말한다.

데이터 리엔지니어링을 추진하기 위해서는 데이터의 정제, 분류, 합리화, 물성추출, 정규화 등 5가지 추진 원칙이 있다. 5가지 추진 원칙을 요약해 본다.

첫째, 데이터 정제(Cleansing): 이는 품목 마스터에 들어 있는 품명, 규격 데이터 또는 종이 카탈로그에 포함되어 있는 오류를 제거한다. 예를 들면 불필요한 문자, 구두점 등을 제거하며 업체명, 모델명, 도면번호 등을 분리한다.

둘째, 데이터 분류(Classification): 데이터를 용도, 기능, 형상, 재질별 카테고리를 설정하여 대, 중, 소, 세분류 등 n 단계 분류를 자기회사의 현황에 맞게 자율적으로 구성한다. 여기서 중요한 것은 데이터 분류 시 상황 변경에 유연하게 대처할 수 있고 국제 표준(UNSPSC, HS, eCI@SS 등)을 수용할 수 있는 품목 데이터를 관리할 수 있는 소프트웨어 도구를 고려해야 한다.

셋째, 데이터 합리화(Rationalization): 우선 품명 표준 표기 방식을 정립하여야 한다. 대부분 품명의 표기 방식은 수식어 다음에 명사를 놓는다. 하지만 국제적인 사례(Best practice)에 의한 품목 표기 방식은 명사를 먼저 표기하고 그 뒤에 수식어를 표기한다. 예를 들어 과거 품명을 “게이트 밸브”로 표기하던 것을 데이터 리엔지니어링에서는 “밸브 게이트”로 표기한다. 이렇게 표기해야 컴퓨터에서 품명을 검색할 시 컴퓨터에 부하도 주지 않고 찾고자 하는 품명을 한눈에 보기 쉽게 검색을 할 수 있다. 이때 모든 이용자가 이해하도록 품명 축약어를 복원하며 나머지 수식어는 물성(Attribute)으로 정의한다.

넷째, 분류 체계의 유연성: 전체적으로 분류명만 사용하고 분류코드는 부여하지 않는다. 그리고 품목 데이터 관리 소프트웨어 도구를 이용하여 필요에 따라 자유로이 이동을 하면서 시뮬레이션을 한다. 이때 분류코드는 품목 데이터 관리 소프트웨어 도구에서 내부코드로서 자동 부여된다. UNSPSC, HS코드 등 기존 국제 분류코드는 해당품목의 세분류(명사) 단계에서 물성(Attribute)으로 등록하여 국제분류코드로 검색할 때 활용할 수 있도록 한다.

다섯째, 최종 규격(Spec) 단계: 무의미 방식의 중립 품목 식별코드를 부여하거나 회사의 실정에 따라 유의미 방식의 품목 식별 코드를 부여한다. 이때 무의미 방식 품목 식별 코드는 품목 데이터 관리 소프트웨어에서 자동 부여 된다. 데이터 리엔지니어링 방법론에서는 무의미 품목 식별코드 부여 방식을 권장한다. 그리고 UPC, UCC/EAN, JIS, ANSI 등 국제규격과 KS 등 국내규격 등은 규격단계에서 해당 품목의 물성으로 등록하여, 국제규격 또는 KS 규격으로 검색할 시에 활용할 수 있도록 한다.

공급업체 데이터와 품목 데이터를 전자 상거래에 활용하면 잇점이 많다.
그리고 공급업체로부터 공급받은 종이 카탈로그와 견적서 등을 참조하여 공급업체 규격 데이터를 추출한다. 여기에는 공급업체 데이터와 공급업체 품목 데이터 두 가지로 나눌 수 있으며, 공급업체 데이터로서는 공급업체 코드, 공급업체명, 홍보, 보유설비 및 생산 능력, 생산 제품명, 특허 및 인증, 신기술 등의 내용과 공급업체 홈페이지와의 링크 부문이 있다. 그리고 공급업체 품목 데이터로서는 공급업체 SKU번호, 제조업체명, 브랜드명, 모델번호, 제조업체 품목번호, 도면, 사진, 음성, 동영상, 단가, 납기, 재고 등 추가 물성 등이 있다.

이렇게 수집된 공급업체 데이터를 PMS의 규격 마스터 DB에 저장한다. 그 이유는 중앙 저장고의 기능을 갖고 있고 이 속에 있는 규격 마스터 DB의 품목 식별코드는 공급사의 품목코드와 코드 매핑(Code Mapping)을 함으로써 상호 거래하고자 하는 품목을 비교 인식할 수 있도록 하는 기능을 갖고 있기 때문이다.

끝으로 각 공급업체는 스펙 마스터 DB의 품목 식별코드가 중립 식별코드의 성격을 갖고 있어서 공급업체 품목코드와 코드 매핑을 하여 자동 변환된다. 따라서 이러한 기능을 전자 상거래에 활용하면, 동일한 규격의 품목에 대하여 공급업체 간의 정보를 손쉽게 비교할 수 있다.

NSP통신 people@nspna.com
저작권자ⓒ 한국의 경제뉴스통신사 NSP통신·NSP TV. 무단전재-재배포 금지.