데이터 리터러시

지금 시대를 관통하는 키워드는 ‘빅데이터’다. 빅데이터가 세상을 움직이는 시대다. 스마트폰, SNS 등 기술 덕택에 데이터의 생성, 보관, 분석이 가능해졌으며, 이를 기반으로 한 과학적인 의사결정이 이뤄지고 있다. 이러한 세상에서 필수 생존요건으로 간주되는 능력이 있으니 그것은 ‘데이터 리터러시’다. 리터러시(literacy)는 글을 읽고 해독하는 능력을 뜻하고 ‘데이터 리터러시’는 데이터를 읽고 그 안에 숨겨진 의미를 파악하는 데이터 해독능력을 말한다. 매 순간 수많은 데이터가 쏟아지고 디지털 환경에서 생성되는 데이터는그 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 다루는(해독하는) 능력말이다.

발췌_데이터 리터러시 (AI를 지배하는 힘) 강양석 지음/ 이콘 출판

책속으로
지금은 개인이 소소하게 데이터를 읽고, 쓰고, 데이터로 소통하는 기본기가 갖는 중요성이 전 세계적으로 활발히 논의되고 있다. 구텐베르크의 금속활자가 기술적 혁신을 넘어 역사적 도구가 된 것도 ‘지식의 개인화’에 기여했기 때문이라는데, 데이터 역시 그에 필적할 만한 도구로 가능할지 기대된다. 데이터를 그런 도구로 만들려면 데이터 활용에 필요한 생각 근육을 키워야 한다. 데이터에 끌려가기보다는 데이터를 끌어갈 생각의 힘이 강해져야 한다는 뜻이다. 데이터는 어디까지나 생각을 거드는 도구이지, 그 자체가 생각이 될 수는 없기 때문이다.데이터의 힘과 한계를 균형 있게 받아들이고, 비판하고 해결하며 방어하고 공격하는 생각 근육을 단련하자.
데이터를 기반으로 토론하는 경우 우리가 얼마나 건설적이고 생산적인 토론을 할 수 있는지를 보여주는 한 가지 사례가 있다. 토론의 배경은 이렇다. 2013년 프로야구는 그야말로 한 편의 드라마처럼 끝났다. 정규 시즌을 4위로 마감한 두산베어스는 포스트 시즌에서 3위 넥센히어로즈, 2위 LG 트윈스를 파죽지세로 격파한 후 대망의 한국시리즈에서 1위 삼성라이온즈를 향해 무서운 기세로 돌진했다. 삼성라이온즈 역사 2011년과 2012년에 한국시리즈 우승컵을 두 차례나 거머쥔 전통의 강호여서 양 팀은 그야말로 날카롭기 짝이 없는 창과 두텁디 두터운 방패의 격돌이었다. 결국은 삼성의 우승으로 끝났지만, 한국시리즈에서 삼성에게 3승을 먼저 따냈을 정도로 엄청났던 두산의 투혼은 모든 야구팬에게 강렬한 인상을 남겼다.
다음의 대화는 그 뒤 두 팀의 팬이 나눈 것이다. 삼성라이온즈와 두산베어스 중 과연 어느 팀이 더 나은가’라는. 매우 주관적이면서도 모호한 대화가 데이터를 통해 어떤 양상으로 변하는지 살펴보는 것이 관전 포인트다.
삼성 팬 : 역시 삼성 라이온즈야! 물론 두산이 초반에 매섭게 몰아친 건 사실이지만, 오랜 세월 팀에 녹아 있는 승리 DNA는 역시 무시할 수 없는 거거든. 한국시리즈 연속 3회 우승이라는 위업을 누가 감히 무시할 수 있겠어? 대한민국 최고 야구 구단이라면 단연 삼성이지! 실력 앞에 장사 있어? 2012년 구단별 승률 데이터만 봐도 대번에 알 수 있잖아? 이번 우승이 우연은 아닌 거지.

두산 팬: 일단 축하해. 두산 팬 입장에서도 큰 미련이 남지 않을 정도로 정말 한 경기 한 경기가 명경기였어. 특히 두산이 삼성을 한국시리즈에서 세 경기 먼저 이겨냈을 땐 정말 두산의 팬이라는 걸 떠나 야구팬으로서 경이롭기까지 하더라니까. 근데 한국 최고의 팀이 어디냐에 대해서는 좀 더 생각해볼 필요가 있는 것 같아.

삼성 팬 : 그게 무슨 소리야. 최근 팀 승률 면에서나 우승 횟수로나 당연히 삼성이지.

두산 팬 : 뭐, 삼성의 실력이 뛰어난 건 알겠는데. 과연 실력만으로 최고라 할 수 있냐는 거야. 야구는 인생의 축소판이라고들 하잖아. 인생의 모든 희로애락이 야구 경기에 녹아 있다는 점이 중요하니 나온 말인데, 그런 관점에서 보면 흥행성이 최고 팀의 기준이 돼야 하지 않겠어?

삼성 팬 : 골수 야구팬다운 지적이군. 일부는 인정해. 근데 흥행성의 기준은 뭐야?

두산 팬 : 입장객 수 등이 좋은 예가 되겠지. 이 데이터들이 내 말을 이해하는데 도움이 될 것 같아. 이거 봐봐. 2012년과 2013년 구단별 관중 수를 봐도 두산의 경우가 삼성보다 얼마나 많은지 알 수 있잖아? 이게 바로 플레이에 스토리가 묻어 있는 팀의 힘이라고 생각해. 보다시피 삼성의 관중 수는 전체 구단 가운데 하위권 수준인데 어떻게 이런 팀이 최고 팀이라고 할 수 있겠어?

삼성 팬 : 음......! 정말 관중 수로 보면 삼성이 하위권이네. 그런데 말이야. 구단별 관중수는 어떻게 집계되는 거지? 왠지 저 데이터가 구단의 흥행성과는 연관이 없을 것 같다는 느낌이 드는데?

두산 팬 : 무슨 말이야. 이건 한국야구위원회(KBO)의 공식 자료라고.

삼성 팬 : 출처가 확실하다는 건 나도 알겠는데, 상식적으로 그렇잖아. 너나 나나 오랫동안 수많은 야구 경기를 직접 야구장에서 관람했지만, 우리가 입장권을 살 때든 경기장에 입장할 때든 언제 우리가 스스로 어느 구단 팬이라고 명확히 밝힌 적이 있었나?직관적으로 너무 말이 안 되지 않아? 게다가 그런 확신이 강하게 드는 데이터도 있어. 지난 5년간 구단별 관중 선호도와 관중수 간의 관계를 분석한 건데, 여기에서도 둘 사이엔 이렇게 아무런 관계가 없는 것처럼 나오거든. 승률과 비교했을 때처럼 말이다. 그래도 한편으론 혹시나 싶어 마지막으로 다른 분석을 한 가지 더해봤어. 이것 좀 볼래? 놀랍지 않아? 네가 제시한 구단별 관중수는 구단별 구장의 최대 수용 관중 수와 이렇게도 높은 상관관계를 보였어. 즉., 네가 말한 구단별 관중 수는 구단별 흥행 정도보 다는 그저 구단별 구장의 수용 능력을 대변하고 있을 가능성이 높다는 거지. 어떤 구단의 인기나 실력도, 선호도 대변하지 않는, 그냥 무관한 근거일 수 있다는 거야. 인터넷 예매만 하더라도 그래. 예약자인 내가 홈팀 팬인지 원정팀 팬인지 주최 측이 알 턱이 없잖아. 그런데 어떻게 저런 데이터가 나올 수 있느냐는 거야.

두산 팬 : 음.......! 너의 문제의식에 나도 이렇다 할 반론을 내놓을 수 있는 건 아닌데, 그래도 저 데이터가 정말 팀의 흥행 정도를 대변하지 못하는 ‘무관한’ 데이터라고 말하려면 좀 더 명확한 근거가 필요할 듯해.

삼성 팬 : 명확한 근거야 현재로선 구단별 입장객 규모를 작성한 사람에게 물어보지 않는 한 구하기 힘들겠지만, 나름 이런 시도는 해볼 수 있겠어. 2012년 구단별 승률과 구단별 관중 규모의 상관관계를 그래프로 그려봤는데, 승률과 관중 수는 아무런 상관이 없는 것으로 나오고 있어. 정말 관중수가 흥행성을 조금이라도 반영한다면 어떻게 팀 성적과 저렇게 무관하게 나올 수 있겠어?

두산 팬 : 하하! 두산 베어스에 대한 나의 불타는 지지는 여전하지만, 네 말처럼 구단별 관중 수는 팀의 어떤 흥행도 대변하지 못할 가능성이 높아 보이긴 하네. 이야! 네가 제시한 데이터에서 이상한 낌새를 포착하고 이렇게까지 밝혀내니 내가 더 이상 할 말이 없는걸!
지금껏 언급된 많은 역량이 녹아들어갔다는 점이 느껴졌는가? 이렇듯 데이터 리터러시는 똑같은 데이터라도 좀 더 값진 자산으로 만드는 힘이 되고, 그렇기에 데이터 대홍수 시대를 살아가는 데 이써 필수중의 필수인 역량에 해당한다. 데이터 언어처럼 쓸 줄 아는 기본적인 소양이 없는 데이터맹(盲)이 되지 않기 위해 애써야 하는 이유다.