傀儡師の館.Python

傀儡師の館.Python

PR

Calendar

Keyword Search

▼キーワード検索

Archives

2024.06
2024.05
2024.04
2024.03
2024.02
2024.01
2023.12
2023.11
2023.10
2023.09

Profile

kugutsushi

kugutsushi

Free Space

設定されていません。
2007.11.03
XML
カテゴリ: ことばの処理
グーグルが大規模な日本語の解析データを公開、「20%ルール」の成果

グーグルでは、200億文に上る日本語データを解析したという。含まれている単語は、約2550億個。1~7gramのデータを公開しており、例えば7-gramのデータは11億種類以上にも上る。

Google Japan Blog: 大規模日本語 n-gram データの公開 を読む。

すごいなぁ。 特定非営利活動法人 言語資源協会 GSK2007-C Web日本語Nグラム第1版 で公開されているのね。といっても無料じゃないけど。「抽出対象となった文数は約200億文で、出現頻度20回以上の1~7グラムを収録している。」で DVD-R 6枚の 26GB(gzip で圧縮した状態で)。すごい量だな。ちなみに 個人・非会員42,000円か。んー、個人でも会員になれば 2,1000円か。ってことは、正会員(個人/団体):5,000円/年 だから、会員になっちゃった方がこの際、得だってことじゃん。

ということで、これは言語資源協会のいい宣伝にもなって、二重の社会貢献だったりする。また、ブログの中に 北陸先端科学大学院大学 白井清昭先生 の名前があるので、大学と先生に対する後援にもなっていて、四重の社会貢献だったりする。こうやって、Google はアメリカでもいろんな大学と連携を深めて人材獲得の面でも、社会的な評価の点でもプラス点を付けながら大きくなってきたのだろう。Win-Win の関係を築くのが会社としてうまいのね。

イメージとして、マイクロソフトが結果としてすべてを奪っていくイメージなのに対して、Google はシェアする会社のイメージがある。まあ、実際のところ、マイクロソフトはよいパートナーとなった会社には、実はそれなりに便宜を図って生き延びさせているわけだけど、一般的なイメージからすると排他的なのね。Google は検索市場で大きなシェアをとることによって、意識せずに結果として、いろんな会社をつぶしてきた面があるけど、マイクロソフトがライバルをつぶしてきたようなやり方じゃないから、イメージが悪くない。まあ、オープン性の高い会社と低い会社のイメージの差ってことだな。そのあたり、マイクロソフトもなんとか変えようとしてはいるんだろうけど。そういえば、マイクロソフトが Facebook 出資した と思ったら、 mixi、GoogleのSNS共通規格「Open Social」に賛同 OpenSocial ね。

ミクシィと同時にOpen Socialに賛同した企業には、MySpace、Friendster、hi5、imeem、LinkedIn、Ning、Oracle、orkut、Plaxo、Salesforce.com、Six Apartなどがある。


話を元に戻し、実際に作業したのは、工藤拓氏と賀沢秀人氏らしい。工藤氏は MeCab の作者、加賀氏は、賀沢氏は NTTコミュニケーション科学基礎研究所 知能情報研究部 知識処理研究グループ だった人かな。機械学習とか知識習得、テキストマイニングのあたりを研究してきた人か。なるほど。 「構造化データの機械学習」研究会 Machine Learning on Structured Data (MOST) にも二人の名前が並んでいるし、NTT の時代からいろいろやっている間柄なのかな。それにしても NTT も二人もおいしいところもってかれちゃって、もったいない。

でもって、 GSK2007-C Web日本語Nグラム第1版 は気分的には欲しいが、ちょっと遊ぶのに何万もかけられないので、そのうち宝くじがあたったら購入することにしよう(本当はほしくてたまらないのだが。。。。)。英語版の All Our N-gram are Belong to You も。

まあ、何はともあれ企業イメージって、こういうものによっても地道に作られていくのねぇ。

イメージってオープンソースでも重要で、たとえば組み込み型全文検索エンジン Senna とか、2ch 系に分類されるから、以前はちょっとねぇというイメージがあったと思うが、 未来検索ブラジル、NTTデータの全文検索機能「Ludia」に「Senna」提供 (2006年10月)

こういうのを発表することによって Google が「日本語でも」重要な位置を占めるんだぞといういいアピールになっている。自然言語処理とかやっている学生の Google 脂肪率がいちだんと跳ね上がるんじゃなかろうか。そして、こういうニュースが流れると、Google っていったって、所詮は日本語は日本の会社の方が得意でしょ、というイメージを打ち砕いていったりする。そういう意味でも一般のニュースにこうしたものが載っていくのはインパクトがある。




なかのひと






お気に入りの記事を「いいね!」で応援しよう

Last updated  2007.11.03 11:05:02
コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

© Rakuten Group, Inc.
Mobilize your Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: