something eureka

思索のヒント、ブックレビューなどを中心に

レビュー カルチャロミクス 文化をビッグデータで計測する を読んで

f:id:ksroom:20191212150315j:plain


われわれの「文化」を象徴するものはいったい何か。

いくつかの候補が挙がるだろうが、「言語」もその特徴的な要素の一つだといっていいだろう。

人間が言語を話す動物である以上、その行動や振る舞いが言語化され、文字として記録される。もちろん瞬間瞬間を生きる個々人にとっては、とくに気に留めることもない、生活の流れの一部分にすぎないのだが、それを整理して抽出する、集合的に扱うならば、そこに人の文化活動の片鱗が記録されているはずである。

 

本書では、グーグルが得意とする書籍の全デジタル化の一環として、過去の書籍に掲載されている文字を単語ベースで数え上げることで、単語の使われ方にどういった歴史的変遷が見られるのかをnグラムとして描き出す。

それが人間の文化を計数的に扱う、「カルチャロミクス」の神髄だ。

 

まず初めに取り上げられるのは、英語に特徴的な不規則動詞が意味するものだ。

現代的な発想では、現在形に-edをつける規則動詞が基本形であって、そうではない不規則動詞は例外のように感じられる。

しかし、そもそもの原語の発生からたどっていくとそうではない世界が見えてくるのだ。

 

いわゆる英語の原型は不規則動詞のほうであって、いわゆる規則動詞は、後から追加された新語ゆえに、ただ規則的に過去形をつくり出したゆえに産物に過ぎない。

ただ、言語というものは使われることで継承されるものであるから、使用頻度の高い不規則動詞はその形式が維持されるものの、あまり使われない単語は人々のあいだから忘れ去られてしまう。

そうなると、本来不規則動詞であったものも、語形変化を維持できず、単純な規則性で書き記す規則動詞に転化することが避けられない。

 

つまり、今残っている不規則動詞は、使われることをもって昔の名残をとどめている一方、それ以外の大勢は、規則動詞として形式的にのみ維持されている結果なのだ。我々はそうした起源を知らないがゆえに、さも不規則動詞は後付けの例外であるかのように誤認している。

 

こうしたことは、言語の総使用状況のビッグデータを分析することであぶり出される事例の一つだ。文化の痕跡は、通常計数的に測り取ることは困難な部類の事象に他ならないが、ビッグデータをうまく活用することで、こうした人間行動の背後にあるものがあぶり出されてくる。

 

もちろん、書籍化される内容は人間の文化活動の内の本の限られた一部であり、また、書籍になじみやすい内容と、書籍になじみずらい内容とがあることも事実だ。さらにデータ化されている書籍もすべての書籍を網羅しているわけではない。

 

つまり、ビッグデータと言いつつ、それは条件付きのビッグデータであることを忘れてはならない。一方で、肯定的に考えるならば、これまで顕在化させることの難しかった文化的要因の断片を、nグラムをはじめとする、計数として取り出すことが可能になったことは、いわゆる定性的側面の強かった人文系の研究領域に、新たな光を当てることが可能になったことを意味する。

 

もちろん人間の言語は文脈的であり、意味のあるまとまりとして成立していることに鑑みれば、それを単語に分解し、その使用頻度だけで何かがわかったような気になることは、過大評価しないよう気を付けなければならない。

 

ただ、われわれはとくに意識して特定の単語を使っているわけではないにしても、それが全世界的な規模で計測されると、そこに別の、個人を超えた、時代時代の総体的な人間行動や歴史背景のインパクトのようなものが見えてくる点は、新たな気づきを与えてくれる視座として面白い。

 

文化とは個々人の積み上げである一方、必ずしも個々人に還元することのできない何かなのかもしれない。それは時代という表現も同じだろう。われわれは時代にいろいろな色付けをするが、それは総体的に見て初めて見えてくる視点であって、そこでリアルタイムに生きている個々人が意識しているものとは違う。ビッグデータが見せてくれる世界像とは、まさにそういった後付け的に塗り分けられるカラーの色差といってもいいだろう。