매일경제 컬럼입니다.
https://www.mk.co.kr/news/business/view/2020/11/1215961
빅데이터 수집은 기본…옥석 가리는 `큐레이션`이 핵심
현대 AI 역사의 중요한 획은 2010년에 시작된 컴퓨터 비전시스템의 정확도를 겨루는 이미지넷 대회였다. 이 대회의 첫 2년간의 성과는 큰 주목을 얻지 못했으나, 2012년 토론토대학의 지오프리 힌튼교수의 연구진은 딥러닝을 사용하여 월등한 실적을 나타냈다. 힌튼교수는 1980년대부터 딥러닝을 연구해 왔지만 데이터와 컴퓨팅파워의 부족으로 큰 성과를 내지 못하고 있었다. 그러나, AI를 효과적으로 학습시킬 수 있는 빅데이타의 축적으로 이제 이미지 인식을 넘어 광범위한 산업분야에서 딥러닝이 활용되고 있다.
2013년 기준, 인류가 축적한 데이타의 90%가 2008년부터 2012년 사이에 생성되었다는 통계는 이제 더 이상 놀라운 사실이 아니다. 2019년 기준, 이 기간은 최근 2년으로 축소되었고 이러한 경향은 더욱 가속화할 것으로 보인다. 이를 배경으로 빅데이타의 가치를 활용한 신생 기업들이 속속 탄생하고 있다. 예를 들어, 주식이나 상장지수펀드(ETF) 등의 거래 플랫폼을 무료로 제공하는 미국의 로빈훗은 고객의 주문을 받아 거래를 실제로 실행하는 회사들에 데이타를 제공함으로서 2020년 상반기에만 3천억원 이상의 수입을 거두었다.
인공지능시대에 데이타는 새로운 석유라고 불리지만 원유와는 달리 데이타에 숨어 있는 가치를 발굴하는 일은 고도의 전문지식과 많은 투자를 필요로 한다. 빅데이타의 가치를 극대화하기 위해서는 단지 많은 양의 데이타를 모아두는 것으로 충분치 않다. 빅데이터는 양(volume) 과 함께 데이타의 다양성(variety)이 중요한데 이는 사진의 일부분을 선명하게 확대하기 위해서는 각 부분의 화소가 충분해야 하는 것과 비슷하다. 폐암환자의 1%에서만 보이는 유전적 돌연변이를 표적으로 삼는 치료제를 개발하고자 했던 스위스의 제약회사 로슈의 상황을 생각해 보자. 로슈는 개발 중인 치료제에 적합한 유전적 구성을 가진 환자들로 시험그룹을 구성하고, 동일한 돌연변이를 가진 환자들 중 다른 치료제를 사용하고 있는 사람들을 통제그룹으로 사용하고자 했다. 그러나, 이러한 목적에 적합한 환자는 극소수에 불과했기 때문에 이는 쉬운 일이 아니었다. 이에 로슈는 미국내 각 병원들을 연결하여 방대한 데이타베이스를 구축한 플랫아이언의 데이타를 활용하여 목적을 달성할 수 있었는데, 시험기준에 적합한 환자는 백만명 당 약 25명에 불과했던 것으로 전해진다. 플랫아이언의 빅데이타는 단지 많은 양의 데이타가 아니라 희귀병을 포함한 다양한 환자들의 데이타를 포함하고 있었기에 그 가치가 배증될 수 있었다.
폐경 후의 여성을 대상으로 승인된 유방암 치료제를 환자의 약 1%를 차지하는 남성 유방암환자에게 확대하고자 했던 화이자의 상황 역시 비슷한 사례이다. 보통 특정 환자군에 승인된 치료제를 다른 환자집단에 확대하기 위한 허가를 얻으려면 여러 해에 걸친 임상실험이 요구된다. 화이자는 남성환자에 대한 정보가 포함되어 있는 빅데이타에 AI 를 적용함으로써 3년이상 소요될 것으로 예상했던 이 과정을 1년 이내에 마칠 수 있었다.
대부분의 분야에서 빅데이타를 수집하는 것은 이제 어려운 일이 아니다. 그러나, 빅데이타의 진정한 가치는 통계적 노이즈를 분리하고 유용한 정보만을 뽑아내어 데이타를 연구에 적합한 형태로 가공, 생성하는 빅데이타 큐레이션으로 극대화할 수 있다. 이러한 큐레이션 과정에서 데이타의 다양성을 확보하는 것은 필수적이다. 이러한 점에 주목하여, 다국적 제약회사들은 데이타과학회사로 탈바꿈하고 있고 이 분야에 많은 투자 자금이 몰리고 있다. 플랫아이언은 창업 6년만에 로슈에 약 2조 2천억원에 인수되었는데 이는 빅데이타의 가치와 함께 데이타 큐레이션의 중요성을 잘 보여 준다.
대부분의 물리적 재화는 한 사람이 소비할 경우 다른 사람이 소비할 수 없다는 점에서 ‘경쟁적’이라 불린다. 이와는 달리 데이타는 한사람이 소비해도 그 양이 감소하지 않으며 다수가 동시에 사용할 수 있다는 점에서 ‘비경쟁적’이다. 이러한 비경쟁적 특성으로 인해 동일한 데이타가 다양한 기관에서 광범위하게 사용될 경우 사회 전체의 복지를 증진시킬 수 있다. 이런 점에서 정부가 다양한 분야에 걸쳐 빅데이타 큐레이션 사업을 실행하고 있다는 점은 주목할 만한 일이다.
|