Stop Thinking, Just Do!

Sungsoo Kim's Blog

Big Data Dilemma

tagsTags

21 March 2014


Summary

hgcho

Big Data Dilemma

빅데이터 열풍이 대단하다. 창조경제의 원투펀치로 등장한 빅데이터에 대한 기대는 좋지만 성공한 사례, 또는 그 결과의 달콤함에만 매몰되어 전체를 보지 못하면 안될 것이다.

모두가, 공평하게 누릴 수 있는 빅데이터 정보에는 묘한 문제가 생길 수 있다. 예를 들어 우리나라 전체 자동차의 운행 정보를 빅데이터로 만든 기가 막힌 내비게이션 시스템이 있다고 가정해보자. 전 국민이 그 시스템이 알려주는 최적의 길을 따라가면 그 길은 도리어 최악의 정체도로가 될 수 있다.

빅데이터를 모두에게 공개하여 공공의 이익을 꾀하는 문제는 경제학에서 말하는 소수자 게임의 과정과 유사하다. 따라서 경쟁을 신앙으로 삼고 있는 우리 사회에서 모두에게 도움이 되는 빅데이터 세상은 쉽게 오지 않을 것이다.

결국 공공의 빅데이터에서 찾아낸 귀한 정보는 일부에게만 공급될 가능성이 높으며, 그로 인하여 디지털 양극화는 심화될 수 있다. 데이터를 제공한 사람과 그것을 누리는 사람의 분리현상은 빅데이터가 풀어야 할 정치경제학적 문제이다.

단순한 기술 문제라고 생각하기 쉬운 빅데이터에는 여러 정치경제학적 요소가 숨어 있다.

미국 보스턴 시에서는 시내 곳곳 도로가 파인 곳을 알아내기 위해 스트리트 범프(street bump)라는 앱을 제공했다. 이 앱을 켠 채 도로를 달리면 폰에 설치된 동작감지 센서가 도로의 꺼진 곳을 감지하여 시 당국에 그 위치를 자동으로 송신한다. 만일 특정 지점이 여러 사용자에게서 신고가 되면 도로 보수팀이 바로 출동하는 것이다.

그런데 나중에 확인된 바에 따르면 가난한 동네에서는 보수가 필요한 지점보다 훨씬 적게 신고가 되었다는 것이다. 특히 노령인구 거주지의 경우 20%만이 스마트폰을 가지고 있어, 정작 수리가 정말 시급한 지점은 빅데이터에서 사라지는 현상이 일어난 것이다. 빅데이터의 신호문제(signal problem)라고 불리는 이 현상은 디지털 디바이드(digital divide), 즉 고가의 디지털 장비를 가진 층과 그렇지 못한 층 간의 간극을 가속화시키는 요인이다.

허리케인 샌디가 미 동부를 강타했을 때도 비슷한 현상이 일어났다. 그 당시 가장 많은 트위터 글을 뿌린 맨해튼을 재난 지점으로 예측한 빅데이터 분석은 엉터리였다. 정작 강풍으로 사망자까지 발생한 코니아일랜드와 록어웨이 지역은 정전으로 휴대기기조차 사용하기 힘들었기 때문이다. 맨해튼에서 가장 많은 글이 올라온 것은 그 지역에 스마트 기기가 집중되어 있었기 때문이다. 빅데이터는 현실 그대로를 편견 없이 보여주는 팩트라는 식의 간편한 사고는 위험하다.

빅데이터 활용에서 가장 중요한 이슈 중 하나는 개인정보이다. 우리는 모아진 자료에서 개인정보를 말끔히 삭제하면 된다고 생각하지만 그게 그렇지 않다.

하버드 대학의 분석팀은 연구용으로 수집된 익명의 유전정보와 선거명부 자료를 결합하여 그 유전정보의 제공자를 85%까지 맞출 수 있음을 보였다. 개별 유전체 정보에 이름과 주소는 없지만 같이 제공된 질병경력이나 나이, 성별 정보가 있었기 때문이다.

빅데이터 하나로는 불가능하지만, 여러 빅데이터를 서로 겹쳐보면 쉽게 개인정보를 복원할 수 있다. 이미 털려버린 2000만건의 신용카드 정보와 공개된 빅데이터를 엮으면 엄청난 양의 개인정보를 뽑아낼 수 있다. 아마도 악당들은 공공 빅데이터가 공개될 날만 손꼽아 기다리고 있지 싶다. 이름과 주소만 지우면 안전하다고 생각해 공개해버렸다간 재앙적 수준의 정보유출을 행정당국이 거들어주는 꼴이 될 수 있다.

공공 빅데이터에는 최소한의 정보만을 추가해야 하는데, 문제는 이렇게 되면 데이터의 효용이 떨어지는 쓰레기 데이터가 되어 버린다. 빅데이터 활용을 위해서는 가능한 한 많은 정보가 추가되어야 하지만, 그럴수록 정보유출은 증가하게 되는 모순적 상황이 일어난다. 빅데이터가 악당들에게는 더 강력한 무기가 될 수 있기 때문이다.

녹색성장의 광풍이 바로 얼마 전의 일이다. 4대강 살리기가 만든 40만개 일자리는 어디에 있는지 모르겠다. 과열은 항상 위험하다. 빅데이터 사업의 반 이상은 이미 실패하고 있거나 구축비용에 비해서 그 효과가 미미하다는 여러 전문가들의 지적을 되새겨볼 필요가 있다. 데이터만 충분하면 뭐든 할 수 있다는 데이터 근본주의자, 빅데이터 장사꾼에게는 불패의 핑계가 있다.

예측이 성공하면 자기 시스템의 승리라고 말하지만, 그것이 실패하면 그건 사용자가 제공한 데이터가 부족했기 때문이라고 둘러대며, 더 많은 데이터를 모아 달라고 요구한다. 언제까지? 예측이 성공할 때까지.

References

[1] 조환규, 빅데이터의 딜레마, 과학 오디세이, 경향신문, 2 March 2014.


comments powered by Disqus