Google、大規模日本語 n-gram データの公開
Googleは、Web から抽出した約200億文(約2550億単語)の日本語データから作成したn-gramデータ(1~7 gram)を公開した。データの配布にあたっては特定非営利活動法人 言語資源協会の言語資源流通サービスを利用しており、団体・個人の区別なく利用可能とのこと。
データの中身は、下記のようになっておりかなり膨大な数。またデータ量としては、 gzipで圧縮済みで26GBとなっている。
総単語数: 255,198,240,937 (2550億)
総文数: 20,036,764,367 (200億)
異なり 1-gram 数: 5,130,848
異なり 2-gram 数: 161,026,581
異なり 3-gram 数: 788,964,456
異なり 4-gram 数: 1,415,574,707
異なり 5-gram 数: 1,552,758,000
異なり 6-gram 数: 1,377,565,999
異なり 7-gram 数: 1,140,408,688
Google Japan Blog: 大規模日本語 n-gram データの公開
GSK2007-C Web日本語Nグラム第1版