傀儡師の館.Python

傀儡師の館.Python

PR

Calendar

Keyword Search

▼キーワード検索

Archives

2024.06
2024.05
2024.04
2024.03
2024.02
2024.01
2023.12
2023.11
2023.10
2023.09

Profile

kugutsushi

kugutsushi

Free Space

設定されていません。
2008.03.20
XML
カテゴリ: ことばの処理
きまぐれ日記: TinySegmenter: Javascriptだけで分かち書き から TinySegmenter:Javascriptだけで書かれたコンパクトな分かち書きソフトウェア を見る。

TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。

ということで、25kバイトで書けるのか、すげぇー、と試してみる。雰囲気的には、そこそこうまく分かち書きしてくれるものの、実用上の精度としては厳しいかな。品詞もつかないし。でも、

TinySegmenterは機械学習のみを使って分かち書きを行います。TinySegmenterは入力文すべての文字について、文字の前が単語境界かどうかを、文字、文字N-gram、ひらがな・カタカナといった文字種情報とその組み合わせを特徴量として使いながら、学習・分類しています。学習データにRWCPコーパスを使っているので、新聞記事には強いですがチャットやブログといったくだけた文、ひらがなだけの文の解析精度は高くありません。しかし、辞書を使っていないぶん、未知語の解析精度はMeCabより良い場合があります。

ということで、技術的な観点からおもしろいし、学習対象を適切なものにすれば(分かち書きしたいものに合わせれば)、精度的にも実用的なものになるのかもしれない。

おもしろいけど、んー、使い道は思いつかない。個人のブログで形態素解析を使えないけれども、分かち書きしてタグクラウドを作るのに使ったり、ページ内索引を作るのに使ったりとかできないことはないのかな。twitter とかで何か使えるのか。でも、ゲーム的な使い方は何かできないのかな。普段、これがしたいのに何が使えるかと探すことはよくあるが、これを使って何かおもしろいものはできないかということを最近してないな、とかふと思った。

とりあえず、こういうものをさくっと作ってしまうところが、こういう人はすごいよなと思った。こうしてさらしておけば、誰か何かおもしろいもの作る人出てくるかもしれないし。パッと見た目でおもしろい感じがするものって、誰からおもしろい使い方を必ず見つける。で、もって凡人は、それを見て、ほーぅ、そういう使い方ができたかとまた感心するのであろうと 凡人の一人としては思うのであった。


なかのひと






お気に入りの記事を「いいね!」で応援しよう

Last updated  2008.03.20 22:09:11
コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

© Rakuten Group, Inc.
Mobilize your Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: