傀儡師の館.Python

傀儡師の館.Python

PR

×

Calendar

Keyword Search

▼キーワード検索

Archives

2026.05
2026.04
2026.03
2026.02
2026.01
2025.12
2025.11
2025.10
2025.09
2025.08

Profile

kugutsushi

kugutsushi

Free Space

設定されていません。
2003.01.27
XML
カテゴリ: ことばの処理
どこかに無くしたと思ったメモが出てきたので、昨日分を書いたばかりだけど、今日の分も入れてしまおっと。

お、 MeCab の 0.72 が出ている 。「未知語処理ルーチンが少しまともになった」らしい。さっそく、感謝して使わせていただきましょう。ちなみに昨日の日記でちょっと書いた cocab との merge は次のバージョンと。楽しみ楽しみ。ちなみに、ちょっと使ってみたが、カタカナの未知語の扱いがすごくよくなった。記号については、ちょっと判断に迷うところがあるが、口語ベースの文やメールを扱う場合だと、まあ基本的に better なのだろーーーーーーう。うぁーーー、これでなくちゃという感じ。明日のネタができた~~~~(笑)。

内山将夫,井佐原均.(2002) 日英新聞記事の対応付けと精度評価.情報処理学会研究報告, 2002-NL-151, pp.15--22. を読んだ。しかし、いかんせん、The Dialy Yomiuri なんて一般人の手出しできないようなものを使った研究は意味がないのだ(笑)。で、この内山将夫氏の並べる会というページにある
再配布可能な訳文と原文の文対応付け は面白いな。 プロジェクト杉田玄白正 の成果の原文と訳文を対応付けをしているわけか。ヴェブレン、ソースタイン『所有権の起源』、レイモンド、エリック・S 『ハッカーになろう』、ロンドン、ジャック『火を起こす』、ワイルド、オスカー 『幸福の王子』 (html/data)、ワイルド、オスカー 『わがままな大男』が扱われている。こういものの量が増えてくると面白いことになってくる。こういうことをする人には、最大の賛辞を送りたい。

あぁ、でも所詮、 文対応付けソフトウェア がEDR日英対訳辞書とEDR英日対訳辞書とを必要とするのだよな・・・。結局のところ EDR - 日本電子化辞書研究所 の辞書がネックになって自然言語処理は素人が手を出すものではないということになってしまうのだ。 IPALの辞書

○ 過分割についてちょっと考える (Python で人工無能)

形態素解析結果から過分割を検出する統計尺度(pdf) も読んでみる。形態素解析の精度が97%~99%(Fuchi and Takagi 1998) ぐらいになってしまうと、人手で誤りを検出するのは大変だからプログラム的にやってしまおうということか。ふーん、実験結果で茶筌の過分割は1.5%以下か。でも、けっこうやっぱり多いな。一般的なものだと未知語の数も辞書を増強しないと増えるわけだし。

過分割 (「今日/の/金/相場/は」が「今日/の/金/相/場/は」になってしまうようなもの)と 分割不足 「ユニックスワークステーション」 「ユニックスワークステーション」 )、 語境界交差型 「病気/が/まん延」 「病気/がまん/延」 になってしまうようなもの)とに分けられると。語境界交差型は、 「が/まん延」 の「が」でまず切らなければいけないところを切らずに「がまん」としてしまっている分割不足と、 「まん延」 と一つにつなげなければいけないところで 「まん/延」 東南アジアツアー を((東南)(アジアツアー))だと誤りで(((東南) アジア) ツアー)だと正解(東南-アジアツアーではなく、東南アジア-ツアー)とするのは、一般人の感覚にもマッチしているな。まあ認知的にはヨーロッパツアー、東ヨーロッパツーア、西ヨーロッパツアー、エジプトツアー・・・、と見ていくと、アジアツアー+東南[アジア]という枠組みになってるんだろうけど。

末尾の誤りの例をざっくりと眺めてみる。人工無能の方では、まず助詞に関わるところをまず集中的にチェックしたらいいかな。助詞を軸にしてみていくような。「結果」が「結(普通名詞)/果(普通名詞)」とかいうこともあるのか・・・。普通名詞/普通名詞もなにか適当にやった方がいいかも。固有名詞+未知語なら、単純につないでしまうとか、「虹/を/描/い/た/旗/を/揚/げ」「高らか/に/歌/う」のパターンも実感として多そうだからエイやでやって、フィードバックをかけていくようなやり方にするかな。なんにせよ、形態素解析として正しくなくても、置き換えなどやったときに問題ない形になっていればいいのだから、適当にやりゃいいや。

うーん、やっぱり、動詞と助詞、それに語尾、接頭.接辞など、名詞/形容詞/形容動詞以外のところを練っていった方が面白いものが作れそうだ。





お気に入りの記事を「いいね!」で応援しよう

Last updated  2006.09.11 23:56:48
コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x
X

© Rakuten Group, Inc.
X
Design a Mobile Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: