PR
Calendar
Keyword Search
Category
Free Space
TinySegmenterはJavascriptだけ書かれた極めてコンパクトな日本語分かち書きソフトウェアです。わずか25kバイトのソースコードで、日本語の新聞記事であれば文字単位で95%程度の精度で分かち書きが行えます。 Yahoo!の形態素解析のようにサーバーサイドで解析するのではなく、全てクライアントサイドで解析を行うため、セキュリティの観点から見ても安全です。分かち書きの単位はMeCab + ipadicと互換性があります。
TinySegmenterは機械学習のみを使って分かち書きを行います。TinySegmenterは入力文すべての文字について、文字の前が単語境界かどうかを、文字、文字N-gram、ひらがな・カタカナといった文字種情報とその組み合わせを特徴量として使いながら、学習・分類しています。学習データにRWCPコーパスを使っているので、新聞記事には強いですがチャットやブログといったくだけた文、ひらがなだけの文の解析精度は高くありません。しかし、辞書を使っていないぶん、未知語の解析精度はMeCabより良い場合があります。
剽窃レポート暴きに怯えるのは学生だけかな 2009.12.29 コメント(1)
重要指標としての言葉の出現頻度 2009.04.11
mecab-0.98pre1 2009.03.08