반복내용 건너뛰기(skip to main content) 본문 바로가기(Go body) 메뉴 바로가기(Go Menu)
G03-8236672469

오피니언

인공지능의 현장 목소리는 데이터

NSP통신, NSP인사 기자, 2022-03-21 11:08 KRD8
#알서포트

이상윤 알서포트 AI팀장

(서울=NSP통신) NSP인사 기자 = AI는 데이터를 먹고 자라면서 데이터에서 최상의 아이디어를 뽑아내고, 더 고문하면 정말로 중요한 것을 불어 댄다.

스타트업이 벤처캐피털 사에서 투자를 받을 때 놓쳐서는 안 될 팁을 들은 적이 있다. 개발 중인제품에 대한 설명은 기본이겠지만 시장의 목소리를 꼭 담아야 한다는 것이다. 잠재 고객의 반응에 대한 설명이 회사의 매출이나 제품 보다도 현장의 목소리에 투자자들은 더 관심이 있다는 것이다.

인공지능에서 현장의 목소리는 바로 데이터에 해당한다. 그러나 안타깝게도 인공지능에 관심이 많은 분들도 데이터의 중요성에 대해 간과하는 경우가 많다. IT회사의 중역을 맡고 있는 분과 AI전문가 사이에서는 아래와 같은 대화가 자주 등장한다.

NSP통신-이상윤 AI팀장 (알서포트 제공)
이상윤 AI팀장 (알서포트 제공)

중역: 이번에 한 지역내 기업들의 성장성을 예측해서 유망한 기업을 지원해 주는 지자체 정책 개발 프로젝트를 수주했어요. 기업의 성장성을 예측하는 부분에 인공지능을 사용하려고 하는데 가능할까요?
AI전문가: 당연히 가능합니다. 기업의 성장성은 어떤 수치로 표현하게 되나요?
중역: 여러가지가 될 수 있을 것 같습니다. 예를 들면 매출액을 기준으로 성장성을 예측하면 되지 않을까요?
AI전문가: 그러면, 매출액을 포함한 기업정보 데이터가 필요할 것 같은데, 데이터는 확보할 계획이 있지요?
중역: (약간 당황하며) 필요한 데이터는 구매하면 될 것 같습니다. 그런데, 필요한 어떤 알고리즘을 사용하면 될까요? LSTM? 아니면 GAN?
AI전문가: (더 당황하며) 예…, 예?

G03-8236672469

위의 시나리오는 실제로 지인과의 대화내용을 약간 각색한 것이다. 필자가 당황했던 이유는 LSTM(장단기 메모리 네트웍)이나 GAN(생산적 적대신경망)을 모르기 때문이 아니라 인공지능의 기반이 되는 데이터 처리 과정을 가볍게 생각할 때 초래하게 되는 결과가 예상되었기 때문이었다.

다른 분과의 대화에서도 위의 대화패턴이 반복되는 것을 경험하였다. LSTM이나 GAN 등의 개념을 알고 있는 것만 해도 일반적인 수준을 훌쩍 뛰어넘는 것이다. 일반적인 수준을 가늠하고 싶다면 2021년 미국 성인의 16% 만이 AI문맹을 면했다는 통계결과가 있다(America Needs AI Literacy Now 라고 검색창에 입력하면 더 상세한 사항을 알 수 있음).

데이터의 중요성을 강조하는 실험결과 중에 다음과 같은 문제를 소개한다 (세계 AI분야 4대 천왕 중 한 명인 앤드류 응(Andrew Ng)교수의 MLOps: From Model-centric to Data-centric AI의 내용인용)

문제: 제철소 강판(steel sheet)의 불량상태를 검출하는 기존의 AI 기본모델의 정확도가 76.2%였다. 정확도를 90%로 높이려면 딥러닝 모델을 개선해야 할까 아니면 데이터 품질을 개선하는 것이 효율적일까?

결과: AI모델을 개선하는 것보다 데이터 품질을 개선하는 것이 더 효과적임을 알 수 있다. 응 교수는 친절하게도 강판 외에도 태양광 패널과 표면검사 결과도 소개했다.

AI모델을 개선했을 경우 강판의 결함 예측 정확도가 제자리 걸음을 한 반면(76.2%), 데이터 품질을 개선했을 때는 목표치인 90%을 넘어서는 결과(93.1%)를 보여주었다.

필자는 데이터의 중요성을 잊지 않기 위해 회사 책상에 다음과 같은 표를 붙여 놓았다.

If you torture the data long enough, it will confess to anything. - Ronald Coase.
데이터를 충분히 고문하면 놈은 뭐든 불게 되어있다.

좀 잔인하게 느껴진다면 아래의 표를 붙여 놓아도 좋을 것이다. (우리말로 번역하지 않아도 착 달라붙는 말이다.)
Data has a better Idea. - Toni Sekinah

물론 오로지 데이터만이 중요하다는 것은 아니다. 논란을 피하기 위해 아래의 앤드류 응 교수의 말을 한 번 더 인용하는 것으로 이 글을 맺는 것이 좋을 것 같다.
AI System = Code + Data

NSP통신 people@nspna.com
저작권자ⓒ 한국의 경제뉴스통신사 NSP통신·NSP TV. 무단전재-재배포 금지.