傀儡師の館.Python

傀儡師の館.Python

PR

×

Calendar

Keyword Search

▼キーワード検索

Archives

2026.05
2026.04
2026.03
2026.02
2026.01
2025.12
2025.11
2025.10
2025.09
2025.08

Profile

kugutsushi

kugutsushi

Free Space

設定されていません。
2003.01.28
XML
カテゴリ: ことばの処理
人間の感情を読み取る軍用ロボット、開発中(HotWired, Louise Knapp, 2003/01/15) について、「ロボットのセンサーは、心拍を記録するための心電図センサー、発汗などの小さな変化を捉える皮膚センサー、顎と眉の微細な筋肉の動きを検出する筋電計、動脈の収縮を計測する血圧計、体温計で構成されている。」とあるが、言葉ではなく、こうした体の発する言語を元に反応するロボットも確かに面白い。ちょっとオ下劣になるが、軍事よりも究極のダッチワイフを作るという方向で進むと面白いかもしれない。意思決定にかかわる部分よりも、むしろ快感という一点に集中した方が研究もしやすいだろうし。

ここの 感情を持つロボット開発のようなものを見ていて、やっぱり、こういう形のロボットが社会に溶け込んでいくのは欧米に比べて日本が早いだろうと思う。最低10年ぐらいは効果な娯楽といった感じだろうが、この分野と警備システムというのは研究上、両輪になっているところがあるんだろうな。あとは、自動車産業とロボットか。ロボット産業は、22世紀の大きな産業になるのは間違いないだろう。

未知語をどうする (Python で人工無能)

日本語形態素解析器の MeCab の新バージョンに関しては、若干不具合があったようで新しいもの(0.73)が出ていた。まあ、ここではDLL を使ってというのはまだ先になりそうだし影響もないだろうからスキップしちゃおう。

で、未知語を見ていてよくなったなと思うのは次のようなものだ。基本的に辞書に入っていないカタカナはギタギタ状態だったので、そういうものは全部よくなっている。人工無能の形態素解析はこのくらいやってくれると嬉しい。あとは、人工無能側で MeCab の辞書登録候補を会話から出してやるようなものを作ればいいかなという気になってくる。たとえば、「メーリングリストサーバ」であれば、「メーリングリスト」と「サーバ」がそれぞれ単独で会話の中に出てくるようであれば、個別に登録してやろうとかいった具合。品詞は面倒だから名詞/固有名詞かサ変名詞にでもしてしまえばいいだろう。会話をすべて保存しておいて、その中で適当に類推する程度でも、まあ、人工無能なら許されるし。



新: デジカメ 未知語,*,*,*,*,*,*,*,*

古:デ 助詞,格助詞,一般,*,*,*,デ,デ,デ
  ジカ 名詞,一般,*,*,*,*,ジカ,ジカ,ジカ
  メ 未知語,*,*,*,*,*,*,*,*

新:シンコイワミナミ 未知語,*,*,*,*,*,*,*,*
旧:シン 名詞,固有名詞,人名,姓,*,*,シン,シン,シン
  コイ 名詞,一般,*,*,*,*,コイ,コイ,コイ
  ワ 助詞,終助詞,*,*,*,*,ワ,ワ,ワ
  ミナミ 名詞,固有名詞,組織,*,*,*,ミナミ,ミナミ,ミナミ

新:メーリングリストサーバ 未知語,*,*,*,*,*,*,*,*
旧:メ 未知語,*,*,*,*,*,*,*,*
  ー 未知語,*,*,*,*,*,*,*,*
  リング 名詞,一般,*,*,*,*,リング,リング,リング
  リスト 名詞,一般,*,*,*,*,リスト,リスト,リスト
  サーバ 名詞,一般,*,*,*,*,サーバ,サーバ,サーバ

新:ツッコミ 未知語,*,*,*,*,*,*,*,*
  ツ 未知語,*,*,*,*,*,*,*,*
  ッ 未知語,*,*,*,*,*,*,*,*
  コ 未知語,*,*,*,*,*,*,*,*
  ミ 未知語,*,*,*,*,*,*,*,*

新:WikiWiki 未知語,*,*,*,*,*,*,*,*
  W 記号,アルファベット,*,*,*,*,W,ダブリュー,ダブリュー
  i 記号,アルファベット,*,*,*,*,i,アイ,アイ
  k 記号,アルファベット,*,*,*,*,k,ケイ,ケイ
  i 記号,アルファベット,*,*,*,*,i,アイ,アイ
  W 記号,アルファベット,*,*,*,*,W,ダブリュー,ダブリュー
  i 記号,アルファベット,*,*,*,*,i,アイ,アイ
  k 記号,アルファベット,*,*,*,*,k,ケイ,ケイ
  i 記号,アルファベット,*,*,*,*,i,アイ,アイ


まあ、あと例は2Mバイトのテキストをかけるだけでも、凄い量があるのでかなりの改善といえるだろう。

微妙だと思うのが記号の扱い。これはくっつけない方がいいのかなぁという気がしないでもないのだが、


新: )、 未知語,*,*,*,*,*,*,*,*
旧: ) 未知語,*,*,*,*,*,*,*,*
   、 記号,読点,*,*,*,*,、,、,、


こういうものを見ると、

旧:わーーーーい。
  わ 助詞,終助詞,*,*,*,*,わ,ワ,ワ
  ー 未知語,*,*,*,*,*,*,*,*
  ー 未知語,*,*,*,*,*,*,*,*
  ー 未知語,*,*,*,*,*,*,*,*
  ー 未知語,*,*,*,*,*,*,*,*
  い 動詞,自立,*,*,一段,連用形,いる,イ,イ
  。 記号,句点,*,*,*,*,。,。,。
に比べると、
新:わーーーい。
  わ 助詞,終助詞,*,*,*,*,わ,ワ,ワ
  ーーー 未知語,*,*,*,*,*,*,*,*
  い 動詞,自立,*,*,一段,連用形,いる,イ,イ



なんにせよ、形態素解析側で未知語として扱われているものと、人工無能側で何らかの知識を持つ単語がクロスしたときの取り扱いなども考えておくとおもしろいかもしれない。ほんとうは、単語単位で簡単にテンポラリに形態素辞書に追加できるようであれば、さらに面白いだろうが、とりあえず、学習情報を蓄積して、一定度溜まったらどうこうするとかいう方面で何か考えてみるかな。形態素解析レベルの未知語と人工無能の未知語が必ずしも一致するわけではないし、何かできそうだな。

あと、英数記号の類かな。形態素解析ではこの程度にしておいた方がいいかもしれないが、人工無能側では、まとめてしまうようなことをした方が扱いが楽になる。


EBN-3032
EBN 未知語,*,*,*,*,*,*,*,*
- 未知語,*,*,*,*,*,*,*,*
3032 未知語,*,*,*,*,*,*,*,*

PC9800
PC 未知語,*,*,*,*,*,*,*,*
9800 未知語,*,*,*,*,*,*,*,*

ISBN-38920-43848-43
ISBN 未知語,*,*,*,*,*,*,*,*
- 未知語,*,*,*,*,*,*,*,*
38920 未知語,*,*,*,*,*,*,*,*
- 未知語,*,*,*,*,*,*,*,*
43848 未知語,*,*,*,*,*,*,*,*
- 未知語,*,*,*,*,*,*,*,*
43 未知語,*,*,*,*,*,*,*,*
EOS


あと、人間の目からすると同じものが、微妙に違うのだな・・・。ふと思うに数詞という概念がないのか。


1999年
1999 未知語,*,*,*,*,*,*,*,*
年 名詞,一般,*,*,*,*,年,トシ,トシ

1999年
1 名詞,数,*,*,*,*,1,イチ,イチ
9 名詞,数,*,*,*,*,9,キュウ,キュー
9 名詞,数,*,*,*,*,9,キュウ,キュー
9 名詞,数,*,*,*,*,9,キュウ,キュー
年 名詞,接尾,助数詞,*,*,*,年,ネン,ネン

1月2日
1月 名詞,副詞可能,*,*,*,*,1月,イチガツ,イチガツ
2 名詞,数,*,*,*,*,2,ニ,ニ
日 名詞,接尾,助数詞,*,*,*,日,ニチ,ニチ

1月2日
1 未知語,*,*,*,*,*,*,*,*
月 名詞,一般,*,*,*,*,月,ツキ,ツキ
2 未知語,*,*,*,*,*,*,*,*
日 名詞,接尾,一般,*,*,*,日,ビ,ビ


ちなみに、JUMAN を使ってみると、次のようになるから、JUMAN の場合全角数字にしておけば、ちゃんと数詞になってくれるので気にしていなかったが MeCab はちょっと、ここ負けてる。


1月2日
1 (いち) 1 数詞
月 (つき) 月 名詞性名詞助数
2 (に) 2 数詞
日 (にち) 日 名詞性名詞助数

1999年
1999 (いちきゅうき1999 数詞
年 (ねん) 年 名詞性名詞助数

1999年
1999 (1999) 1999 その他
年 (ねん) 年 普通名詞

1月2日
1 (1) 1 その他
月 (げつ) 月 普通名詞
2 (2) 2 その他
日 (にち) 日 普通名詞


あれあれと思って、茶筌を見てみると、


1999年
1 イチ 1 名詞-数
9 キュウ 9 名詞-数
9 キュウ 9 名詞-数
9 キュウ 9 名詞-数
年 ネン 年 名詞-接尾-助数詞

1999年
1 1 1 未知語
9 9 9 未知語
9 9 9 未知語
9 9 9 未知語
年 トシ 年 名詞-一般

1月2日
1月 イチガツ 1月 名詞-副詞可能
2 ニ 2 名詞-数
日 ニチ 日 名詞-接尾-助数詞

1月2日
1 1 1 未知語
月 ツキ 月 名詞-一般
2 2 2 未知語
日 ビ 日 名詞-接尾-一般


うーん、めちゃくちゃ中途半端。全角半角の扱いは入力側でんとかせよというポリシーにすればいいとしても、うーん、このへんなんだかなーと思わんでもない・・・。





お気に入りの記事を「いいね!」で応援しよう

Last updated  2006.09.11 23:56:35 コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x
X

© Rakuten Group, Inc.
X
Design a Mobile Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: