傀儡師の館.Python

傀儡師の館.Python

PR

Calendar

Keyword Search

▼キーワード検索

Archives

2024.06
2024.05
2024.04
2024.03
2024.02
2024.01
2023.12
2023.11
2023.10
2023.09

Profile

kugutsushi

kugutsushi

Free Space

設定されていません。
2007.10.24
XML
カテゴリ: ことばの処理
TTM: TinyTextMining KH-Coder と比べると気軽に使える。

形態素解析は MeCab を使っているので、あらかじめダウンロード、インストールしておく必要がある。結果として作られるファイルは、次のものでクロス集計まで出してくれるのでけっこう便利かもしれない。

  • 語のタグ別出現度数(単語頻度)
  • 語のタグ別出現度数(文書頻度)
  • 語×タグのクロス集計(単語頻度)
  • 語×タグのクロス集計(文書頻度)
  • 語×語のクロス集計(文書頻度)
  • テキスト×語のクロス集計(単語頻度)

使い方は簡単で TTM: 初心者のためのインストールガイド を見れば、誰でもすぐに使える。

KH-Coder は 10月11日に新しいバージョンが出ていた

この手の解析をするときは、速度的には MeCab に劣るが、 茶筅 形態素解析辞書UniDic galatea は、この組み合わせを使っていたりするようだ。

ちなみに UniDic は UniDic-chasen-1.3.5 がリリースされている。UniDicの特長 は、 形態素解析辞書UniDic によると、

  • 国立国語研究所で規定した「短単位」という揺れがない斉一な単位で設計されています。
  • 語彙素・語形・書字形・発音形の階層構造を持ち,表記の揺れや語形の変異にかかわらず同一の見出しを与えることができます。
  • アクセントや音変化の情報を付与することができ,音声処理の研究に利用することができます。

ということで、自分の中では速度に惹かれて MeCab がよいと思ってきたけれど、辞書面からすると茶筅が優位って感じ。ちょっと比較してみるかな。



なかのひと






お気に入りの記事を「いいね!」で応援しよう

Last updated  2007.10.24 08:23:37
コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

© Rakuten Group, Inc.
Mobilize your Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: