Stop Thinking, Just Do!

Sungsoo Kim's Blog

Smart Things vs. Many Experienced Things

tagsTags

5 April 2014


Summary

hgcho

[과학 오디세이]머리 좋은 것과 경험 많은 것

하나를 배워서 열 개를 깨우치는 사람이 있는 반면에, 열 개를 가르쳐줘도 겨우 하나를 이해하는 사람도 있다. 하여간 사람들은 나름의 방법으로 지식을 늘리기 위해 최선을 다하고 있다. 고대에는 점성술이나 신탁이 나름의 지식 생산법이었다. 산업혁명을 거쳐 근육을 대체할 기계 발명에는 성공했지만, 지식의 자동생산은 한참 뒤인 컴퓨터가 발명되면서 본격화됐다. 컴퓨터 초기 시절, 사람들은 그것이 인간보다 더 영민한, 새로운 인공두뇌가 될 것이라 예상했다. 그러나 지식을 스스로 생산하리라 기대한 인공지능은 썩 성공적이지는 못했다. 지금의 고사양 PC보다 못한 당시 컴퓨터도 이유가 되지만 두뇌를 극단화시켜 모형화한 폰 노이만형 컴퓨터 구조의 본질적인 한계가 있었기 때문이다.

지식 생산에는 인공지능류의 자가증식법만 있는 것은 아니다. 만일 100번의 경험에서 하나 정도의 사실을 알아내는 멍청한 시스템이 있다고 하면, 이 시스템에 1만개의 경험치를 던져서 100개의 새로운 지식을 뽑아내는 우악스러운 방법도 있다. 이러한 해결 방법을 데이터 접근법이라고 부르고 이를 체계화한 것이 요즘 뜨고 있는 기계학습(machine learning)이다. 인공지능 기법이 고급 지식의 정형화에 중점을 두었다면 기계학습은 과거의 다양한 경험에 현재를 대입해 미래를 예측하는 방법이다. 인공지능이 좋은 머리라고 한다면 기계학습은 풍부한 경험이라고 비유할 수 있다. 인공지능 태동기에는 메모리와 계산속도 때문에 이런 데이터 접근법이 불가능했지만, 지금은 싼 가격의 메모리와 엄청난 네트워크 덕택에 기계학습이 열매를 거두고 있다.

기계학습은 최근 열풍인 빅 데이터의 핵심기술로 가장 중요한 지식 엔진이 될 것이다. 분자생물학이 심리학, 의학, 심지어 경제학과 철학까지 넘보듯이 기계학습에 기초한 데이터 과학(Data Science)은 전통 과학과 공학의 모든 자리를 위협할 것이다.

범죄 드라마를 보면 보통 수사는 유사사건 전과자의 탐문조사부터 시작된다. 이런 접근법을 연관에 의한 혐의(guilty by association)라고 부르는데, 이것은 기계학습의 가장 기본적인 철학이다. 만일 어떤 사람의 신용카드 사용 패턴이 이미 사고를 내고 잠적한 불량회원과 유사하다면 위험인물로 판단하는 것이 합당하다. 뉴욕 경찰은 폭력사고가 빈발하는 날의 모든 특성과 해당 구역을 기계학습으로 분석해 예상 지역에 경관을 집중 배치함으로써 사고 발생률을 30% 줄였고, 검거율은 70%까지 올릴 수 있었다고 한다. 온타리오의 한 병원은 그간 모은 신생아 의료 자료를 기계학습으로 분석한 ‘조산아 이상 감지 시스템’을 개발해 태아 사망률을 획기적으로 줄일 수 있었다고 한다. 수많은 생체신호와 그 변화를 이전 사례와 비교분석할 수 있는 상황은 수십년 경험의 전문의 100여명이 버티고 있는 것과 다름없을 것이다.

미국 온라인 콘텐츠 업자인 넷플릭스(Netflix)는 개인 선호도 분석에 기초한 판매 전략으로 성공한 대표적인 예다.

투입치의 10분의 1 학습능력을 가진 사람에게 10만개, 100만개를 가르칠 수 없지만 기계의 경우에는 가능하다. 극단으로 정제된 고급 지식을 넣어서 그 10배로 증식시키는 일보다는 마구 수집된 100만개의 경험적 지식을 넣어 그 중 쓸 만한 100개의 지식을 얻어내는 것이 공학적으로도 싸게 먹히고 현실적으로도 더 가치 있다.

따라서 모든 경쟁은 점점 데이터 수집 경쟁으로 변하는 양상이다.

많은 쇼핑몰에서 개인정보 활용 동의를 요구하는데, 그들은 우리가 구매한 상품의 정보뿐만 아니라 어떤 물건에서 망설이는지까지 기록해 그것을 다른 업체에 판매한다. 국제정치에도 경험 데이터가 활용된다. GDELT라 불리는 데이터 센터는 전 세계에서 일어난 분쟁 정보를 매일 수만건씩 모아서 해당 지역에 정치적으로 어떤 변화가 있을지를 예측한 정보를 공개하고 있다. 특정 지역에서 일어난 작은 폭동은 이전의 유사 사건과 비교·분석되어 어떻게 발전될지를 예측하는 데 사용되고 있다. 이 시스템은 이집트 대통령 축출 사태의 시작과 결말을 예측하는 데 아주 요긴하게 쓰였다. 지금도 한국에서 일어난 각종 사건이 차곡차곡 GDELT에 쌓이고 있을 것이다.

인간과 달리 기계는 수억만건의 경험을 담을 수 있다. 창조경제의 핵심인 빅 데이터에 대한 희망은 창대하지만 그 기초는 좀 걱정스러운 수준이다. 마구잡이식으로 쌓아둔 데이터가 시간이 지난다고 해서 저절로 빅 데이터로 숙성되지는 않는다. 장기적이며 체계적인 목적 없이 쌓아두기만 한 데이터는 기계학습에 쓸 수 없는 무용지물이나 다름없다. ‘티끌 모아 먼지’란 이런 상황을 말한다.

References

[1] 조환규, [과학 오디세이]머리 좋은 것과 경험 많은 것, 과학 오디세이, 경향신문, 13 August 2013.


comments powered by Disqus