親子構造の統計(ベンフォードの法則)
いきなりですが問題です。
現在世界にはおよそ200の国がありますが、それぞれの国の人口数の首位の数(最も大きい桁の値こと。日本なら1億なので1、アメリカなら3億なので3)で、200カ国を1-9の9通りのグループに分けられます。さて、どのグループに属する国が一番多いでしょう?
まず、国別の人口数のランキングの画像を貼り、その後に答えを書きます。自分で考えたい方は、画像を隠して是非少し考えてみてください。
画像を見ればわかる通り、1が最も多いです。一様分布(全てが同じ確率で出る)ではありません。そして、次に多いのは2、その次は3…と続き、9が最も少なくなります。 (数物セミナー中に、何人かにこの問題を出したのですが、みんな1と即答したので結構びっくりしました。ちなみに僕自身はこの話については先に答えを知ってしまったのですが、知らなかったとして即答できる自信はないです。)
さて、なぜこんなことになるのか?定性的には次のように説明できます。 簡単のため、首位の数がnの国のことを「nの国」と呼ぶことにします。日本は「1の国」です。 人口1000万人の国が首位の数を変えようと思ったら、2000万人を超えなきゃいけないので2倍以上に増える必要があります。一方、人口9000万人の国が首位の数を変えるには、10/9倍されるだけでよいことになります。人口増加率を一定とするならば、1の国が2の国になることより、9の国が1の国になる方が、短い期間で達成されます。逆に言えば、1の国が2の国になるのは長い時間がかかるということですね。
数式の議論
◆数式で理解したい方のために、少しだけ定量的な議論をします。大雑把なモデルを立てると、人口Xというのは指数関数的に増えていきます。
aは適当な定数、tは時間です。なぜかというと、人口増加率をcとすれば という微分方程式を立てることができ、この解が
となるからです。 さて、この関数の首位の数はどのように振る舞うでしょうか? 首位の数を調べるには、 とすると便利です。
このとき、Yの小数部分yが
を満たすならば、の首位の桁はnだと言えます。ゆえに、
論文の引用数
数字の集まりがこのような分布に従うことをベンフォードの法則と言います。この法則は実は人口だけではなく、もっと広い対象に当てはまることが分かっています。この分布の特徴を考えるために、別の例として論文の引用数を考えてみます。 以下の写真は、高エネルギー物理学において、論文の引用数の多い学者を上位から並べたものです(がし画質が悪くてすみません。気が向けたら改良します)。4列あって、それぞれ順位、引用数、氏名、となってます。
面倒なので割合は出していませんが、ベンフォードの法則に従っているのが見て取れます。
この分布の共通点
これで、国の人口と、論文の引用数は同じ統計に従っていることが分かりました。では、人口と引用数には何が共通点なのでしょうか。もっと一般的な言い方をするならば、どういう条件を満たせばベンフォードの法則に従うのでしょうか?
一つの候補として、「親子関係」があると思います。 人口は、親(緑)が複数の子(赤)を生み、その子供たちがまた複数の子供(青)を生んで…というように時間発展します。 論文の引用にも同じような構造があると考えられます。 緑の人が何か論文Aを書きます。Aを直接読んだ人たち(赤)が、論文Bを書き、そこでAを引用します。Aは読んでいないがBを読んだ人たち(青)が、Aを引用して論文Cを書きます。こういう風に考えると、親子構造と言えそうです。
物流のネットワークも扱える?
他にも色々例があります。個人的に今もっとも興味を持っている応用例が、家計簿です。皆さんご存知のように、家計簿には食費がいくら、交際費がいくら、光熱費がいくら…という風に、用途と金額が記されています。僕は母に頼んで10年ほど前の家計簿を見せてもらい、記されている金額を600個くらい抜き出して並べてみました。 結果がこちらです。
これは概ね一致しているといえると思います(それがどれくらい従っているか、という定量的な評価はしていませんが)。英語の授業のぷれプレゼン課題で作ったグラフが役に立ちました。 今回ベンフォードの法則が家計簿にも当てはまったということは、家計簿も親子構造と何かしら関係があるということなんでしょうか。それは一体どういう関係なのか?少し気になっています。 論を進めるために、ここで少し言い方を変えて「家計簿がこの法則に従う」を、「販売されている物の値段がこの法則に従う」としてみます。例としてコンビニを思い浮かべてみてください。100円とか200円のものは多いですが、800円、900円の物って少ないですよね。 いま、物の値段もベンフォードの法則に従っていると仮定するならば、一体どこに親子構造が関わっているのでしょうか。 たとえば、物流はそれに当たるかもしれません。そのとき、先の図で言うと緑がもともとの生産者を意味します。生産者から、複数の仲介業者を通じて多数の消費者のもとに届く様は、まさに親子構造のように思えます。
ただ、これについてはまだよくわかりません。物の価格決定ってもう少し複雑な過程なのではないかという気がします。それでも、人口に当てはまる統計を用いて物流なども説明できるのであればとても面白いのではないか、と思ってこの記事を書きました。まだまだ書きたいことがあるのですがそれはまた次回にします。今回はこの辺で!