책 읽는 사회를 위한 북매거진

chapter 1

빅데이터가 일으킬 인문학 혁명

구글의 야심, 단 하나의 도서관

이 책은 이런 실험들 가운데 하나에 관한 이야기다.

우리가 벌인 실험의 대상은 어떤 사람이나 개구리 또는 분자나 원자가 아니다. 우리 실험의 대상은 역사의 역사에 관한 가장 환상적인 데이터 세트 가운데 하나이며 만들어진 모든 책을 망라하는 것을 목표로 삼은 디지털 도서관이다.

이런 놀라운 도서관은 어디서 유래했을까?

1996년 스탠퍼드에서 컴퓨터과학을 연구하던 대학원생 두 명은, 이제는 없어졌지만 ‘스탠퍼드 디지털 도서관 테크놀로지 프로젝트’라고 알려진 일을 하고 있었다. 목표는 월드와이드웹으로 책들의 세계를 통합하는 미래의 도서관을 구상하는 것이었다. 그들은 사용자가 도서관의 장서들을 검색하고 사이버 공간에서 책과 책 사이를 넘나들 수 있게 해주는 도구를 만들고 있었다. 그러나 디지털 형식의 책들이 상대적으로 너무 적었던 당시로서는 현실에서 실현되기 어려운 일이었다. 그래서 이 두 사람은 월드와이드웹의 빅데이터 행렬에 동참해, 한 텍스트에서 다른 텍스트로 이동하게 해주는 아이디어와 테크놀로지를 작은 검색엔진으로 전환했다. 그들은 이것을 ‘구글’이라고 불렀다.

2004년부터 구글이 스스로에게 부여한 ‘세계의 정보들을 조직하는’ 사명은 매우 순조롭게 진행되었고 설립자인 래리 페이지^{Larry Page}는 자신이 예전에 사랑했던 도서관으로 돌아갈 수 있는 시간을 조금 융통할 수 있었다. 실망스럽게도 디지털 형식이 가능한 책은 여전히 매우 적었다. 그러나 그사이 변화가 생겼다. 페이지가 억만장자가 된 것이다. 그래서 페이지는 구글이 책을 스캔하고 디지털화하는 사업에 뛰어들어야겠다고 결정했다. 페이지는 자기 회사가 이 일에 착수하기만 하면 구글이 이 모든 것을 잘 해내리라 생각했다.

야심이 지나치다고? 분명히 그렇다. 그러나 구글은 이 일을 해내고 있다. 이 프로젝트가 공식적으로 선언되고 9년이 흐른 뒤, 구글은 3000만 권 이상의 책을 디지털화했다. 출간된 책 네 권 가운데 약 한 권꼴이다. 하버드(1700만 권), 스탠퍼드(900만 권), 옥스퍼드(1100만 권)을 비롯해 어떤 대학 도서관이 보유한 장서보다 많은 양이다. 러시아 국립도서관(1500만 권), 중국 국립도서관(2600만 권), 독일 국립도서관(2500만 권)보다도 많다. 이 글을 쓰는 현재, 이보다 많은 책을 보유한 도서관은 미의회도서관(3300만 권)이 유일하다. 여러분이 이 문장을 읽을 때면 구글은 이마저도 추월할 것이다.

롱데이터

‘구글 북스^{Google Books}’ 프로젝트가 시작되었을 때, 우리는 다른 사람들과 마찬가지로 이 소식을 뉴스 기사로 접했다. 그러나 구글의 프로젝트를 충분히 이해한 것은 2년이 지난 2006년이었다. 그 시절 우리는 영문법의 역사를 다루는 논문을 마무리하고 있었다. 이 논문을 쓰기 위해 우리는 옛 영문법 교과서들을 작은 규모로 손수 디지털화했다.

우리의 연구와 가장 관계가 깊은 책들은 하버드의 와이드너 도서관의 저 깊은 곳에 파묻혀 있었다. 이 책들을 찾아가는 방법은 다음과 같다. 먼저 동관 2층으로 간다. ‘루스벨트 컬렉션’과 ‘미국 언어’ 구역을 지나치면 청구번호가 8900으로 시작하는 통로가 보인다. 우리가 찾는 책들은 꼭대기에서 두 번째 서가에 있다. 연구가 진행되는 몇 년 동안 우리는 이 서가를 자주 방문했다. 몇 년, 어떤 경우에는 몇 십 년 동안 이 책들을 뽑아든 사람은 우리가 유일했다. 우리 빼고는 누구도 이 서가에 관심을 보이지 않았다.

어느 날, 우리는 연구를 위해 우리가 정기적으로 이용하고 있는 책이 구글 북스 프로젝트 덕분에 웹에서도 볼 수 있다는 사실을 알게 됐다. 우리는 호기심 차원에서 우리의 서가에 놓인 책들도 구글 북스에서 하나씩 찾아보았다. 그것들도 마찬가지였다. 구글이 중세 영문법에 관심이 있어서가 아니었다. 우리가 찾아본 거의 모든 책은 어떤 서가에 꽂혀 있건 간에 전부 디지털 쌍둥이^counterpart가 있었다. 우리가 한 줌의 책들을 실험하며 보내는 동안 구글은 빌딩 한 채를 디지털화해놓은 것이다.

빌딩의 책들을 통째로 디지털화하는 구글의 프로젝트는 완전히 새로운 유형의 빅데이터를 만들어내는데, 이것은 사람들이 이전에 무언가를 보던 방식을 바꾸어놓을 잠재력을 지니고 있었다. 대부분의 빅데이터는 최근의 사건들에서 생성된 최근의 기록들이어서 크기는 하지만 짧다. 근본적으로 데이터의 생성이 비교적 최근에 일어난 인터넷 혁신에 의해 촉진됐기 때문이다. 우리의 목표는 한 세대에 이어 다음 세대가 살다가 죽을 때까지 정도로 오랜 기간에 걸쳐 이어지는 문화적 변화의 유형을 연구하는 것이었다. 역사적 시간이라는 규모에서 일어난 변화를 탐구할 때 짧은 데이터는 제아무리 크다 해도 별다른 도움이 안 되기 때문이었다.

구글 북스는 우리 시대의 다른 모든 디지털 미디어와 마찬가지로 큰 데이터세트다. 그렇지만 구글이 디지털화한 것의 상당수는 최신이 아니다. 이메일이나 RSS피드, 슈퍼포크^superpoke 등과 달리 책 기록은 수세기 전으로 거슬러 올라간다. 그러므로 구글 북스는 단순히 빅데이터가 아니라 롱데이터다.

이처럼 디지털화된 책들은 롱데이터를 포함하고 있기에 대부분의 빅데이터와는 달리 현대 인류의 그림을 그리는 데에만 국한되지 않는다. 책은 상당히 오랜 시간 ─ 한 인간의 삶의 길이보다 길고, 심지어 모든 국가의 생애보다 긴 기간 ─ 에 걸쳐 우리 문명이 어떻게 변화했는지를 담은 초상화를 제공한다.

책은 다른 이유에서도 대단히 매력적인 데이터세트다. 책들은 놀랍도록 다양한 범위의 주제를 다루며 폭넓은 시각을 반영한다. 방대한 장서를 탐구하는 일은 수많은 사람들, 그중의 상당수는 이미 죽은 사람들을 조사하는 작업이라고 볼 수 있다. 역사와 문학 분야에서 특정 시기에, 특정 장소에서 나온 책들은 해당 시기와 장소에 관한 정보에서 가장 중요한 원천이다.

이는 우리가 구글의 책들을 디지털 렌즈로 검토하여 인류 역사를 연구하는 관찰도구를 만들 수 있다는 뜻이었다. 그것이 우리를 얼마나 멀리 데려다줄지 모르지만, 우리는 이 데이터에 손을 대야 한다는 사실을 깨달았다.

더 많은 데이터, 더 많은 문제들

빅데이터는 우리의 주변 세계를 이해할 새로운 기회를 제공하지만, 동시에 새로운 과학적 도전 과제들을 만들어낸다.

주요한 도전 과제 가운데 하나는 빅데이터가 과학자들이 접하는 전형적인 종류의 데이터와는 매우 다르게 구성된다는 점이다. 과학자들은 한결같이 정확한 결과를 생산해내는 우아한 실험을 통해 세심하게 구성된 질문에 답하기를 좋아한다. 그렇지만 빅데이터는 지저분한 데이터다. 전형적인 빅데이터세트는 어떤 과학적 목적 없이 임시 절차를 통해 수집된 사실과 수치의 잡다한 모음이다. 이것은 오류로 구멍이 숭숭 뚫려 있고 화가 날 정도로 수없이 많은 공백으로 훼손돼 있다. 사라진 정보의 조각은 합리적인 과학자라면 누구라도 알고 싶어하는 것들이다. 이런 오류와 누락은 종종 일관성이 없어서, 심지어 하나의 데이터세트라고 생각되는 것 안에서조차 그렇다. 빅데이터세트는 흔히 엄청나게 많은 작은 데이터세트를 종합해서 만들어지기 때문이다. 예외 없이 어떤 하부 데이터세트는 다른 것들에 비해 믿을 만하고, 각각의 하부 데이터세트는 저마다 독특한 특성을 보인다. 페이스북의 소셜네트워크가 좋은 예다. 누군가의 ‘친구 맺기’ 요청을 ‘수락’하는 것은 페이스북 네트워크의 일각에서는 다른 어떤 것을 의미한다. 어떤 사람들은 자유분방하게 친구 맺기를 수락한다. 다른 사람들은 좀 더 비밀스럽다. 어떤 사람들은 동료들과 친구를 맺지만, 다른 사람들은 그렇지 않다. 빅데이터를 가지고 작업을 하다 보면 당신이 갖고 있는 데이터에 아주 친숙해져서 이런 기이한 버릇들을 분해해서 일부를 다시 조립할 정도가 된다. 하지만 어떻게 해야 페타바이트와 친밀해질 수 있단 말인가?

두 번째 주요한 도전 과제는 빅데이터가 우리가 생각하는 전형적인 과학적 방법론에 너무나도 들어맞지 않는다는 점이다. 과학자들은 구체적인 가설을 확정하고, 그들이 알아낸 것들을 모아서 점진적으로 인과관계를 만들고, 마침내 수학적 이론을 세우기를 좋아한다. 합리적으로 흥미로워 보이는 어떤 빅데이터를 더듬다 보면 분명 어떤 발견을 하게 될 것이다. 말하자면 공해^公海에서 이루어지는 해적 행위와 대기^大氣 사이의 상관관계 같은 것 말이다. 이런 종류의 탐사 연구는 때로 ‘가설 없는’ 연구로 불린다. 시작할 때 무엇을 찾을지 전혀 알지 못하기 때문이다. 그러나 이런 상관관계를 원인과 결과의 측면에서 설명해야 할 때가 오면 빅데이터는 거의 맥을 못 춘다. 해적 행위가 지구 온난화를 불러왔는가? 더운 날씨가 더 많은 사람들을 공해에서의 해적 행위에 나서도록 했는가? 만약 둘이 서로 관련이 없다면 이 둘은 모두 왜 최근 들어 증가하고 있는가? 빅데이터는 종종 우리에게 짐작만을 남긴다.

덜 설명되거나 아예 설명되지 않은 패턴들이 계속 비축되자, 어떤 이들은 상관관계가 인과관계를 과학적 스토리텔링의 근본에서 내쫓으려 한다고 주장했다. 심지어 빅데이터의 등장이 이론의 종말로 이어질 것이라는 주장도 나왔다. 그렇지만 이런 시각은 선뜻 받아들이기가 어렵다. 근대 과학의 위대한 성취들 가운데는 아인슈타인의 일반상대성 이론, 다윈의 자연선택에 의한 진화처럼 기본 원리^{first principle}의 작은 집합 측면에서 복잡한 현상의 원인을 설명하는 이론들이 있다. 우리가 이런 이론들을 향한 분투를 멈춘다면 과학이 늘 추구해온 것들을 더이상 보지 못할 위험이 있다. 우리가 수백만 개의 발견을 한다 한들 단 한 가지도 설명하지 못한다면 무슨 의미가 있겠는가? 우리가 하는 일이 어떤 현상을 설명하는 일을 포기해야 한다는 뜻은 아니다. 우리에게는 우리에게 적합한 일이 있다는 뜻일 뿐이다.

마지막 도전 과제는 데이터가 존재하는 곳의 변화다. 과학자로서 우리는 실험실에서 실험을 하거나 자연으로 나가 우리가 관찰한 것을 기록하여 데이터를 얻는 방식에 익숙하다. 데이터를 얻는 것은 어느 정도까지는 과학자가 제어할 수 있는 범위 안에 있다. 그러나 빅데이터의 세계에서는 종종 거대 기업이나 정부가 가장 강력한 데이터세트로 가는 관문을 지키고 있다. 그리고 그들과 그들의 시민들, 고객들은 그 데이터가 어떻게 사용되는지에 무척이나 신경을 쓴다. 싹수 있는 어떤 학자들이 제아무리 좋은 의도를 가졌다 하더라도 국세청이 세금신고서를 그 학자들과 공유하기를 바라는 시민은 거의 없을 것이다. 이베이의 판매자들은 자신들의 거래에 관한 모든 기록이 공개되거나 불특정의 대학원생에게 공개되는 것을 바라지 않는다. 검색엔진의 로그기록이나 이메일은 개인정보로서 비밀이 지켜져야 한다. 책과 블로그의 저자들은 저작권의 보호를 받는다. 기업들은 그들이 통제하는 데이터에 대해 강력한 독점적 이해관계를 갖는다. 그들은 좀 더 많은 광고 수익을 올리려는 관점에서 데이터를 분석하지만 자신들이 차지한 경쟁적 우위의 핵심을 외부인과 공유하기는 꺼린다. 자신들의 실리에 기여하기를 싫어하는 학자들이나 과학자들에게는 특히 그러하다.

이러한 이유들 때문에 인류의 자기인식^{self-knowledge}의 역사에서 가장 강력한 자원 가운데 일부가 사용되지 못한 채 흘러가고 있다. 소셜네트워크 연구가 수십 년이 지났는데도 페이스북의 총체적 소셜네트워크에 관한 공적 연구는 거의 진행되지 않았는데, 이 회사가 그것을 공유할 만한 어떤 유인도 가지고 있지 않기 때문이다. 경제 시장에 관한 이론은 수세기 전부터 등장했지만 주요 온라인 시장의 상세한 거래 정보에는 여전히 경제학자들이 접근할 수가 없다(레빈의 이베이 연구는 일반적이라기보다는 예외에 해당한다). 그리고 인류는 지구를 지도로 그리기 위해 수천 년 동안 분투해왔지만 지구 전체 표면을 가로세로 50센티미터 크기 해상도의 위성사진으로 만들 수 있는 ‘디지털글로브^DigitalGlobe’ 같은 회사가 만든 이미지들은 한 번도 체계적으로 탐사된 적이 없다. 이런 점들을 생각하면 배우고 탐구하고자 하는 인간의 식을 줄 모르는 욕망 안에 이러한 간극이 있다는 데 깜짝 놀랄 수밖에 없다. 이것은 마치 천문학자들이 멀리 있는 별들을 연구하는 데 여러 세대에 걸쳐 매진했지만 법률적 문제 때문에 태양을 바라보는 일이 금지된 것과 마찬가지다.

그렇지만 태양이 거기 있다는 것을 아는 이상 그것을 쳐다보고 싶은 욕망을 억누르기는 힘들다. 그리고 오늘날 전 세계에 걸쳐 이상한 혼인비행^婚姻飛行이 일어나고 있다. 학자들과 과학자들은 기업들이 보유한 데이터에 접근하기 위해 엔지니어, 제품 담당 책임자, 고위 경영자에게까지 다가가고 있다. 때로는 대화가 순조롭게 진행된다. 그들은 커피를 마시러 나간다. 하나의 쟁점이 다른 쟁점으로 이어지고 1년이 지난 뒤 완전히 새로운 사람이 그림에 등장한다. 유감스럽게도 이 사람은 보통 변호사이다.

구글의 도서관에 있는 모든 것을 분석할 때 우리는 이 모든 난관에 대처할 방법을 찾아야 했다. 디지털 책들이 제기하는 난관들은 독특한 것이 아니었고, 오늘날의 빅데이터 세계의 축소판이었다.

컬처로믹스

이 책은 역사적 변화를 수량화하고자 우리가 7년에 걸쳐 기울인 노력에 관한 것이다. 그 결과물은 새로운 종류의 관찰도구와 우리가 컬처로믹스^Culturomics라고 부르는 언어와 문화, 역사에 대한 이상하고, 매혹적이고, 중독성 강한 접근법이다.

우리는 컬처로믹스 접근법으로 가능해질 모든 종류의 전망을 묘사할 것이다. 우리가 만든 엔그램^ngram 데이터가 영문법의 변화에 관해 무엇을 밝혀냈고, 사전들이 어떤 실수를 했고, 사람들이 어떻게 유명해지며, 정부가 어떻게 사상을 억압하고, 사회가 어떻게 배우고 망각하는지에 대해 이야기할 것이다. 우리의 문화가 어떻게 결정론적으로 행동하는 것처럼 보이는지, 그리고 우리 집단의 미래가 지닌 여러 측면을 예측하는 일이 어떻게 가능한지를 조금이나마 언급할 것이다.

당연히 우리의 새로운 관찰도구32도 소개할 것이다. 구글과 함께 우리가 만든 이 도구는 (그 이유는 3장에 가면 명백해지겠지만) ‘엔그램 뷰어^{Ngram Viewer}’라고 불린다. 2010년 세상에 공개된 엔그램 뷰어는 긴 시간 동안 특정한 단어, 특정한 아이디어가 얼마나 자주 언급되는지를 도표로 보여준다. 이 관찰도구와 그것의 탄생을 이끈 막대한 수학적 계산은 바로 우리가 서두에서 제시한 로봇 역사학자다. 여러분도 books.google.com/ngrams에서 지금 당장 실험해볼 수 있다. 전 세계 모든 연령대의 수백만 명이 역사를 새로운 방식으로 이해하기 위해 지금껏 아무도 그려본 적 없는 도표를 그려내는 이 근면하고 성실한 로봇을 밤낮으로 이용하고 있다.

요약하자면 이 책은 로봇이 말하는 역사, 디지털 렌즈로 들여다봤을 때 보이는 인류의 과거에 관한 책이다. 오늘날 엔그램 뷰어가 이상하고 예외적으로 보일지라도 이 디지털 렌즈는 수세기 전 광학렌즈가 그랬던 것처럼 번창하고 있다. 이 새로운 관찰도구는 급성장하는 디지털 발자국에 힘입어 역사학과 지리학, 전염병학, 사회학, 언어학, 인류학, 나아가 생물학과 물리학에 이르기까지 가려져 있던 측면들을 매일 새로이 드러내 보이고 있다. 세상은 변하고 있다. 우리가 세상을 보는 방식도 변하고 있다. 우리가 그러한 변화를 보는 방식들 역시, 음, 변하고 있다.

(본문 중 일부)