全15件 (15件中 1-15件目)
1
商品券が手に入ったので、デパ地下に連日で食料の調達に行った。結果として、太ってしまった(^^;; 確かにコンビニ弁当よりおいしいけど(比べるな~)、太っちゃうのは嫌だな。歩く距離も2分ばかりよけいにかかるから、運動量も増えているのにぃ。おかしい。商品券はまだ残っているけど、もう1日行ったらやめよう。やっぱり、粗食が一番だ。外来語のカタカナ表記(た行)考えてみると、ちょうど『朝日新聞の用語の手引き』の外来語を使って日本語形態素解析器 MeCab の解析結果を調べていたが、ちょうど「外来語」言い換えの話題が出てきて話がそれてしまったので、また、地道に続けることにする。それにしても、『朝日新聞の用語の手引き』に載っている外来語の選択基準って、いまいちよく分からないな。何を基準にしてるんだろう。まあいいや。そういえば、次のページを見て日本の文化度の低さを感じた。CASTEL/Jの活動停止についてのご案内を見ると、CASTEL/Jのようなものの遺産を活かすような機関がないのだな。ここの研究会の資料欲しい。こういういのってしばらくすると権利関係も曖昧になって誰も管理できなくなり封印する以外なくなるとかして埋もれちゃうんじゃないだろうか。そのまま埋もれていくのは惜しい気がする。さて、本題にもどり、タイム 名詞,一般,*,*,*,*,タイム,タイム,タイムシェアリング 名詞,一般,*,*,*,*,シェアリング,シェアリング,シェアリングタイムレコーダー 名詞,一般,*,*,*,*,タイムレコーダー,タイムレコーダー,タイムレコーダーこの手の複合語を、個々の単語に分割するか1語にしてしまうかについては、次の問題と一緒に考える。ダウン 名詞,サ変接続,*,*,*,*,ダウン,ダウン,ダウンパーカー 名詞,一般,*,*,*,*,パーカー,パーカー,パーカーダウンが名詞-サ変接続になっているが、ここでのダウンは羽毛のダウンであって、下がるの意味のダウン(down)じゃないから、解析誤りということになる。ダウンジャケットとかのダウンだな。ダウンサイジングなら名詞-サ変接続でもいいのかな。ダウンフォール、ダウンヒル、ダウンマーケット、ダウンロード、ダウンサイド、ダウンタイム、ダウンスイングはどうだろう。ダウン症候群の場合なら固有名詞にならないといけないだろうし(Down’s syndrome)。そうやって考えると、やっぱり複合語の扱いが難しいということになってくる。複合語をいちいち登録していては、登録数があまりに多くなりすぎるから、登録数を減らすためには、できるだけ複合語であっても、バラの単語のみ登録する方針にしたいと思う一方、それだと、品詞が正しくつかない確率が非常に高くなるので、結局の所、うまくいかない単語のみ一語として登録するといった方策をとることになりがちなのだが、それだと、今度は似たようなものが一語になったり、複数の語になったりして一貫性を欠くことになってしまうという欠点が出てくる。これを回避するには、複合語を個々の単語への品詞がついた状態で登録できるようにするか、まとめて一単語で登録することを徹底して、かつ、一貫性が検証可能な仕組みを用意するといった2つの方向性が考えられる。で、MeCab の場合、複合語をちゃんと扱える登録の仕方ができないから、後者の選択をとらざるを得なくなるかなぁという気がする。でも、やっぱり複合語は、複数の語として構成されていないと、嫌だなという場面/用途もあるので、こまったところかなぁ。言語処理としては品詞が正しくつくのが好ましいから、正しくない品詞がつくぐらいであれば、長単位で複合語を1単語として登録してしまった方が、あとの処理が楽だし、検索エンジン用の分かち書きに使うのであれば、むしろ品詞は正しくつく必要はなくて、できるだけ細かい(かつ、当然正しい)単位で分かち書きされている方が役に立つだろうし。そうやって考えると、両者の要求を満たす形態素解析器としては、複合語を個々の構成単位を含めて登録できる機能が欲しいところではあるな。まあ、現状、やっぱり人工無能用に使えればいいから長単位で登録して、検索用に使いたいときは、エントリを消し込んでいくような仕組みを作ればいいのかな。で、またもとに戻って、『用語の手引き』には、タンバリンとタンブリンがあるのだな。ならべて書いてあるからどちらも楽器の tambourine をさしているんだろうけど、カタカナ語は、表記の揺れが大きくて困る。時代によっても異なるものだし。電離放射線を照射された物体が単位質量当たりに受け取るエネルギーを表す単位としての gray はイギリスの物理学者のStephen Grayから来ているからグレイと書き、英国の詩人 Thomas Gray はグレーと書き、ダーウィンの知人でもある米国の植物学者 Asa Gray は、グレー。グレアムの法則の Graham はグレアムだけど、電話の Alexander Graham Bell はグラハムと綴ることが多い。Beer は飲み物としてはビールなのに、beer garden ならビアガーデン。でも beer bottle ならビール瓶。ビアとビール、タンバリンとタンブリン、グレアムとグラハム、グレイとグレー....をそれぞれ一緒のものとして扱えるような仕組みも欲しくなってくるな。そうすると、これは空いているフィールドにでも値をつっこんじゃうかな。それとも、やっぱり同義語辞書として別に作るか。けっこう迷うな。ん、複合語ID でもやっぱり辞書に強引につっこんどいて、IDを持っているものなら pickle 化しておいたデータから分割したものを後で読み込んじゃうという手もあるな。どっちにしろ長単位でいけるか。あれ、また、話がそれた。で、再度戻って、チェンジ 名詞,サ変接続,*,*,*,*,チェンジ,チェンジ,チェンジ・ 記号,一般,*,*,*,*,・,・,・オブ 名詞,固有名詞,一般,*,*,*,オブ,オブ,オブ・ 記号,一般,*,*,*,*,・,・,・スペース 名詞,一般,*,*,*,*,スペース,スペース,スペースなんだろう、「オブ」が固有名詞か....。そもそも、英語をそのまま日本語にしたような場合、品詞の付け方どうすんだろう。一単位で名詞にでもして慣用句的に扱うのがいいのかな。困ったもんだ。チック 名詞,一般,*,*,*,*,チック,チック,チック症 名詞,接尾,一般,*,*,*,症,ショウ,ショーダウン症のダウンは固有名詞だけど、このチックは痙攣することのチックだから、名詞でいいのか。XX 症の場合、英語だったら xx’s syndrome のように所有格が出てれば固有名詞ということになるんだろうが、カタカナ語にしちゃうと分からなくなるのだよな。ふぃー、そもそも日本語が安易に外国語を取り入れられる言語だからややこしくなるんだ。やっぱり、外来語排斥運動でもした方がいいんだろうか(笑)。外来語排斥運動は、外来語を排斥する運動ということなので、名詞、名詞(サ変)、名詞(サ変)なのかな。複合語ってのは考えてみると、1つの文と同じようなものだったりするのだな。サ変名詞が末尾に来ているようなものだと、目的語となるようなものを複合語内にもっていて、全体として xxx をする「こと」とかいった感じになるものもたくさんある。その一方で、京都駅みたいなものなら、京都の(にある)駅であるわけで、ちょっと性質は違うな。診断手引きは、診断を手引きするじゃなくて、診断についての手引きだろうし、まあいえたとしても、診断のやり方について手引きすることという感じか。複合語はやっかいだなぁ。あぁ、進まんぞ。チップはサ変名詞になっちゃうけど、野球の tip のチップは、チップするでサ変名詞でもいいけど、「チップを渡す」のチップは、この場合のチップは、チップするとは言えないから、サ変にして欲しくない気がする。こういうレベルで難癖つけると、けっこう問題ある解析はあるかもしれない。人工無能の文生成のときサ変だったら...するという形式に変換してどうこうするとかいったルールを作ったときに、正しくない動作をする可能性があるということにつながる。チップを渡す。チップ 名詞,サ変接続,*,*,*,*,チップ,チップ,チップを 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ渡す 動詞,自立,*,*,五段・サ行,基本形,渡す,ワタス,ワタス。 記号,句点,*,*,*,*,。,。,。ワンピース、ツーピースなら一語でスリーピースならスリー/ピースと分かれちゃう類は、やっぱり枚挙にいとまがない。でも、どうせ入れるならスリーピースぐらいまでは入れちゃった方がいさぎいいので登録してしまうことにしよう。ディーシーブランド 未知語,*,*,*,*,*,*,*,*DC 名詞,固有名詞,一般,*,*,*,DC,ディーシー,ディーシーブランド 名詞,一般,*,*,*,*,ブランド,ブランド,ブランド「ディーシー」は単語としては、登録されてないのか。IBMの場合、アイビーエムでも登録されているのに。こういう一貫性を保つのはけっこう難しいかもしれない。一括して整理できるような方法を考えないといけないかもしれない。ふー。「Tバック」は登録されているけど、(紅茶の)「ティーバッグ」は登録されているってどういうこと? いやんなっちゃうな。まあ、ティーバック、Tバックが登録されていて、ティーバッグが登録されていないよりまだましな気もするし、ティー と バッグがそれぞれ登録されているから、未知語にはならなくて、一応ちゃんと名詞+名詞にはなるから、ティーバッグの一語で登録されていないこと自体は、問題ないのだけど。「Tバック」が入っていて、キャミソール(camisole)が入っていないのは、趣味の問題なんだろうかな。ブラスリップ、ペチコート、スリップ、スパッツ、ブルマ、ステテコ、トランクスなども入っていない。ダメじゃん。やっぱり生活感がないのね。ちょっと検索してみたら、下着についてまともに登録しようとしたら、それなりに大変なのだ。でも、検索しながら変態になった気分になってくるので、女性にでも頼みたいが、もっと変態だと思われるので困ったことだ。辞書ってのは世界観そのものだから、言葉を持たないのは知識を持たないに等しい。やっぱり、それぞれの分野の専門家が、それぞれの分野の辞書を作るのがいいのだな。というわけで、専門用語の辞書を収集するというのも一つの手かもしれない。エントリ自体は、専門用語を元にして、品詞やコストをつけていくところだけ、自分でやると。あれ、デザインがデ 助詞,格助詞,一般,*,*,*,デ,デ,デザイン 名詞,一般,*,*,*,*,ザイン,ザイン,ザインになっちゃう。前は大丈夫だったのに...。エントリはあるし、「デザインする」とかなら大丈夫なのに。これ、バグっぽい。デザインについて調べるデ 助詞,格助詞,一般,*,*,*,デ,デ,デザイン 名詞,一般,*,*,*,*,ザイン,ザイン,ザインについて 助詞,格助詞,連語,*,*,*,について,ニツイテ,ニツイテ調べる 動詞,自立,*,*,一段,基本形,調べる,シラベル,シラベルあちゃー。デ 助詞,格助詞,一般,*,*,*,デ,デ,デバッグ 名詞,一般,*,*,*,*,バッグ,バッグ,バッグデバグも同じパターンだな。なにはともあれ、タ行では19個ばかりの未知語が出た。
2003.04.30
コメント(0)
なんか、扱っている話題のせいか、ac.jp とか go.jp、co.jp あたりからのアクセスがそこそこあって(といっても絶対数がすくないんだけど、go.jp から楽天なんかにアクセスしていいのかぁ、職務中に)、あんまり変なこと書いてると、おしかりをいただかないか、ちょっとひるんでいる今日この頃であった...。私は小心者なので IPA の辞書バカとか気軽に書けなくなっちゃう。別に悪気はなくて、単に語彙数が少なすぎて、よほど鍛えないと実用で使えんって言ってるだけなの。ん、もっとひどいかな (笑)。 まあ、実際のところ、せっかくの ipadic という国民的資産を有効活用しないのは、非常にもったいないと思っているだけなのだ。結局、日本というのは社会的資産を作り出すのに意外に無関心だったりする国なのかなぁ。昔、学際的なんていう言葉が流行った時期があるが、そこから社会資産を作り出そうとかいうのがかけていたのかな。悲しいなぁと思う。そういうものがあれば、いろんな研究で役に立てられるだろうに。そんなわけで、今日はそれとは関係のない外来語の話を続けようかと思う(つながりが分からん)。「外来語」委員会の議事録要旨を眺める「独立行政法人国立国語研究所「外来語」委員会 第1回 議事要旨」からざーっと眺めて思ったことをちょっと書いてみよう。「日本語の世界で、新聞、雑誌、放送などの中で外来語がどのくらいの割になっているのか。10年単位でいったときにどういう新しい言葉が出てきているのか。国立国語研究所でこういった調査を行うことが是非とも必要である」つまりやっとらんということか。どの程度何をやっているんだろう。「第22期の国語審議会の外来語の取り扱いについての考え方表では、I類が定着していると見なせる語、II類とIII類が定着が十分でない語として分類しており、グレーゾーンがない」という記述からすると、ある程度、最近のことについてはやっているということか (グレーゾーンという外来語は言い換えきかんのかぁ)。豆板醤をトウバンジャンではなく、トウバンジァンと表記する例があるらしいが Google で差がしたら5例しか出てこないな。おぉー、NHK様がやってるわけか (元が消えているので Google のキャッシュ)。漫画でアに濁点をうっているものもあるとか書かれているが、そこまで考えるならもっと先にやることがあろうにとも思える。まあ、カタカナで書ける音の単なる例なんだろうけど、国立国語研究所なんかは、ある程度規範的な日本語の世界に住んでいるわけだから、非常に希な例を相手にする必要ななかろうにとも思える。アに濁点なんて「イソターネット」(いそたーねっと) より希な例だろうし。そういう末端にあって主流にならない揺れ動く言葉を扱うこたぁあるまい。アイデンティティーは、「そのものが日本にないからしようがない。新しい概念を日本人の気持ちの中にも世の中にも植えつけるというふうなことのほうが、むしろ国民にたいするサービスとしてはいいということもある」という。でも、結局、第2回「外来語」言い換え対象語にはなっているのだな(笑)。これ、委員会の議事録を公開して欲しいな。ここに至るまでの経緯とかやり取り、駆け引きがおもしろそうだ。その他、おもしろいのは duty に関しての意見。duty は義務という訳語を明治時代にあてられたが、「そのときには義という言葉が日本人の中でまだ生きていた時代であった。しかたがないから従うということではなく誠意であり倫理的規制力を持っていた。義理と訳されてしまった duty という言葉は当時では生きていたが、現代ではもう死んでいる。外来語に対する第2次訳語をここで提案することもあっていい」というくだりだ。意気込みは分からんでもないのだけど、なんだかねぇ。まあ、委員会の参加者も数が多いから、いろんなことをおっしゃる方がいるのだろう。そもそも一対一対応できないんだから、何も気にするひつようないんじゃないかなぁ。そこまで言ったら、日本語全体の置き換えが必要になっちゃうじゃない。やめてくれい。そして「独立行政法人国立国語研究所「外来語」委員会 第2回 議事要旨」を見てみる。「科学の分野は先端のところではもうほとんど90%位、英語で動いており、それをどのようにきれいな日本語に換えて定着させるのかというのは大きな問題」とあるが、第2回ではデータベースなんて大胆なところにチャレンジするようなので見物だ。データという単語を使わずに置き換えられるか。一般的なデータベースは置き換えがやっぱり難しいから個別のものでターゲットを決めて、この場合は xxx としかできんだろうな。それにしてもけっこう厳しそうだが。とはいえ、一般の人にデータベースっていうのも確かに分かりづらい言葉ではあるかもしれないし。「カタカナ語がどれくらい定着しているか」の判断については、確かに難しい。「エネルギーを発揮して」みたいなエネルギーは和語に置き換えるのが好ましいかもしれないというところから文脈が必要だということを指摘するわけだが、文脈をつけて説明するというのは、実際の提案の中にも反映されているようだ。ただし、もっと例文を入れてもよかろうにとも思う。「明治の時代と違って今、日本語の中での漢字や漢語の造語能力はいったいどれくらいあるのか」という発言も出ているようだが、ちゃうじゃん。君らが提案作るんだから、君らにその力があるかってことで一般論にしちゃだめだよと思う。「我々にそんなことができるのだろうか」と素直に書けばいいのに。できん、勘弁しちくりというのもあるだろうし。若干、そういう生の声に近いものがチラチラと見えるときがあるが、そういう方が好感が持てる。「外来語が動詞として使われている時はたいへん危険である」って、何が危険なんだ。わかりにくくなる可能性が高いってことか。外来語じゃなくても明確に書かないとわからないことが多々ある。それに漢語を並べるとわけが分からなくなったりすることも多いわけだし。だいたい、漢字が多い文章もいかがわしさを感じる。基本的に動詞にカタカナ語を使うとわかりにくくなることが多いのは確かだろうが。外来語が動詞として使われている時はたいへんデインジャラスであるから、形容詞、形容動詞などをもっと排斥するならすべきかも。名詞はサ変化してすぐに動詞になってしまうから、そういうものも排斥するというのも一つの手だろうし。なんにせよ「ユビキタスな××」なんてのはいかがわしさの極致だな。「外来語の中には相手をだまくらかすためにわざと概念をあいまいにさせて使う『詐欺語』、古い概念がどうにもならないので新しい言葉にする『ペンキ語』というものがある。」とあるが、どっちもはじめて聞いた(^^;; それこそ、一部の人にしか通用しない言葉じゃないだろうか。少しぐらい長くなっても、無理に名詞にせずに説明的に書いた方がいいのだろう。「言い換えという枠組みが有効なものというのは非常に少ないように思う。いい加減な使い方をしているものについてはこういう使い方をするべきではないというような示し方、あるいは言い換えというよりは説明の仕方をうまくするといった枠組みを包含した形で考えていかなくてはならないのではないか」って、どの委員か分からないが、まっとうな意見だけど、なんで発言に実名つけないのかな。でも、実は第1回、第2回は、なんかとりあえず、わいわいがやがやとやって終わっちゃった感じもする。まあ、2時間じゃそんなもんだろう。「独立行政法人国立国語研究所「外来語」委員会 第3回 議事要旨」になると、やっと、少し方向性が見えてきて、ここからちょっと読む価値が出てくる。第5回には、「最新白書19種から問題となりそうなものとして取り上げたもの計270語を世論調査にかけ、そこから定着度の高くない結果が得られかつ第1回で言い換えた語を除いたものをほぼ3分割し、順次第2回、第3回、第4回分として検討対象にした」などという具体的な記述が見られるようになる。けっこう謙虚で、「第1回中間発表の言い換えについて、なじみの薄い漢語を使ったものがあるが、無理が多少あったかなという反省は今はある」とか載っているゾ。「第1回 『外来語』言い換え提案」を改めて見てみようかなと思ったが、読むのが面倒になったので止める(笑) しばらくの間、なるべくカタカナ語を使わない文章を書いてみようかな。置き換えを考えるのではなくて、カタカナ語が出てきたら、書く内容自体を変えてしまう。でも、明日になったら忘れてるだろうな。まあ、なんにせよ、ポジティブな目でこうしたものを見ていくと、意外におもしろい気がしてくる。であれだな。ジャストシステムはこういう言い換えを ATOK に反映させると、お節介なガイドが出ておもしろいな。ATOK 16 には、郵政省と書くと「総務省」でしょと指摘してくれる機能があるのね。で、ほんとは関係ないなどということはなくて、増え続ける、かつ変化し続ける日本語にどうやって辞書をキャッチアップさせていくかっていうのは、重要だと思うのだ。やっぱり、こういうのは商用なのかな...。寂しいものだ。
2003.04.29
コメント(0)
国立国語研究所 「外来語」委員会から、第1回 「外来語」言い換え提案 ── 分かりにくい外来語を分かりやすくするための言葉遣いの工夫についての提案 ── が出ている。確かに日常カタカナが氾濫してわかりにくくなっているところはあるな。言い換えもけっこう難しいものがある。昔の知識人はみな漢文ができて、素養があったけど、今はそうじゃないからね。むしろ、英語を使って和製英語を作る方が楽なぐらいで。まあ、明治時代の文書など見ると、感じが多すぎて逆に辛かったりもするものだけど(笑)。こういうの見ると、難癖つけて終わりというパターンが多く出てくるだろうが、難癖つけるなら、ちゃんと外来語相談窓口 があるわけだし、電話でも受け付けてるわけだから、直接、伝えればいいのよね。マスコミなんかがこういうものをニュースにするときも、ちゃんと受付窓口を明示して、文句があるならここに伝えればいいよというのをちゃんと伝えるようにしないといけないと思う。この場合であれば、中間発表もされているわけだし、ほんとはチャンスがあったのだよな~。やっぱり継続的にこういうものに対してもフォローしていくような仕組みが必要と。たくさん、ありすぎるから。お魚さんの名前の言い換えなんてのも前にあったな。で、国立国語研究所なんかの場合だと、意見すればそれなりに効果があるだろうから、問題があったり、こうした方がいいということがあったら素直に意見をしたらいいかもしれない(でも、どういう意見が出て、どう反映したかというプロセスが明かされないと不信感を抱くが...)。これからまだ第2回に入っていくわけだし、意見を書き込んでみるか。エンパワーメントなんてのは、ほんと止めてくれよなとか思う一方、データベースなんてのは、いったいなんて言い換えるのだろうかと楽しみでもある。ネガティブな面から見ずにポジティブな面から、生活の中の用語としてコンテクストを想像つつ、考えてみるとおもしろいかもしれない。うーん、そういえば、この提案、理解度を大きく4段階に分けて示してるんだけど、根拠が不明だなぁ。なぜに根拠になるデータを出さないのかなぁ。こういう作業をするときに、いろいろデータを収集したりしてるだろうけど、そういうデータを出せばいいのに。なんか問題あるんだろうか。もっとデータを出して欲しい。データを出さないということは、やっぱり意見は欲しくないと思えてしまう。出せるものは、積極的にどんどん出していくと、機関の信頼性が高まって、好意的に一般人に受け入れられる組織になっていくのになぁ。行政機関すべてに言えてるんだけど。さて、国立国語研究所ちょっと眺めてみる。『日本語話し言葉コーパス』(モニター版2002)公開のご案内 ああ、こんなもの出ていたのだな。これ自体は非常に評価できることなんだけど、「本データの利用は研究目的に限る.」遊びじゃダメなのかなぁ。「また公開された論文等のコピー3部を(独)国立国語研究所に送付しなければならない.」とかあるな、日記送りつけたろか(笑)。この話し言葉コーパス欲しいな。国立国語研究所はいろんなデータを制限を付けずに、一般公開して欲しい...。(2)商品開発の禁止本データの利用は研究目的に限る.商品開発を目的とした利用は許可しない. 音響モデル,言語モデル等を作成して研究に利用することはさしつかえない が,それらを利用した音声認識システム等を販売してはならない. なんて制限も取っ払ってしまった方がいい。下手に雇用政策をするより、この手の組織のデータなどを解放することによって、積極的に製品にも使わせてるなどすればいいのに。何か問題があるんだろうか。政府関連機関がいろんな種類のデータを放出してそれをできるだけ制限なく使うことができるようにすれば、いろんな商売が出てくるだろうし。たとえば、総務省が郵便番号データを公開しているが、こういうものは製品に組み込まれて、いろんな製品が出てくるのに役立っているじゃない。そういう経済効果を考えるべきだと思うんだが...。その方が税金を有効に使っているということになる。本来、価値に転換できないものを公開することによって、商品に組み込まれて、販売される。そうすれば、それを使って儲けた会社が税金をまた払う。それで還元されるわけだし、節税によって税金に直接還元されないように思えても、雇用を生み出し、給与が払われれば、そこで税金に還元されていくわけだし。ちと、そういう経済効果とかも考えながらやってほしいものだ。国家公務員さんたちは。研究者にしても科研費の類を使ってやった研究は、いかに社会に還元していくかって考えてほしいものだし...。そういう流れを作ることが日本の経済を強くすることにもつながっていくわけだし。うーん、話がそれて終わったなぁ。
2003.04.27
コメント(0)
CIO Online ナレッジ・マネージメントの世界 はだいぶ量が増えて、まとめて読めるような感じになってきているな。たまにこういうものを読んでみると楽しい。Tripod に作ろうとした傀儡師研究室はぜんぜん更新できないし閉じてしまうことにした。ここ以外は XREA にある 傀儡氏の実験室だけにしておく。が、あっちも全然更新してないな...。このところ、ここもさぼりがちだし。あとは、いつものマニアの世界。○ MeCab の差分を眺めるそういえば、日本語形態素解析器 MeCab がデグレードしているんじゃないのと書いて、そのままになっていたな。074.txt が mecab version 0.74 で 075.txt が mecab version 0.75 だが、確かによくなっているところはよくなっている。うーん、でも難しいものなのだな。パラメータ(コスト)を変えると、また大きく変わるだろうし。作る側としては、たぶん、あまり結果を気にせずに、プログラムとして正しく動いているかどうかを徹底的に追求して、辞書をカスタマイズしてよくしていくのとは別のフェーズとしてとらえた方がいいんだろうし。鍍金がはげる。***** 074.txt鍍金 名詞,サ変接続,*,*,*,*,鍍金,トキン,トキンが 助詞,格助詞,一般,*,*,*,が,ガ,ガ***** 075.TXT鍍金 名詞,サ変接続,*,*,*,*,鍍金,メッキ,メッキが 助詞,格助詞,一般,*,*,*,が,ガ,ガ*****何げに辞書が変わっているが、ipadic からの読みの取り出し方が変わったのかな?Noun.verbal.dic:(品詞 (名詞 サ変接続)) ((見出し語 (鍍金 3552)) (読み {メッキ/トキン}) (発音 {メッキ/トキン}) )これもかげろうです。***** 074.txtも 助詞,係助詞,*,*,*,*,も,モ,モかげ 動詞,自立,*,*,五段・ガ行,命令e,かぐ,カゲ,カゲろう 名詞,一般,*,*,*,*,ろう,ロウ,ローです 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス***** 075.TXTも 助詞,係助詞,*,*,*,*,も,モ,モかげろう 名詞,一般,*,*,*,*,かげろう,カゲロウ,カゲロウです 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス*****これは、「かげろう」がちゃんととれるようになっているので OK。私は山でつくしを摘んだ。***** 074.txtで 助詞,格助詞,一般,*,*,*,で,デ,デつくし 動詞,自立,*,*,五段・サ行,連用形,つくす,ツクシ,ツクシを 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ***** 075.TXTで 助詞,格助詞,一般,*,*,*,で,デ,デつくし 名詞,固有名詞,一般,*,*,*,つくし,ツクシ,ツクシを 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ*****「つくし」が動詞から名詞になったので OK。でも、固有名詞なのは...。私は彼のしっぽをつかんだ。***** 074.txt彼 名詞,代名詞,一般,*,*,*,彼,カレ,カレの 助詞,格助詞,一般,*,*,*,の,ノ,ノし 動詞,自立,*,*,サ変・スル,未然形,する,シ,シっぽ 形容詞,接尾,*,*,形容詞・アウオ段,ガル接続,っぽい,ッポ,ッポを 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ***** 075.TXT彼 名詞,代名詞,一般,*,*,*,彼,カレ,カレの 助詞,連体化,*,*,*,*,の,ノ,ノしっぽ 名詞,一般,*,*,*,*,しっぽ,シッポ,シッポを 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ*****「しっぽ」が名詞になったので OK。この手のはよくなっているだろう。たぶん、全体的にひらがな文字列の認識は向上した感じ。日光でゴルフ場建設反対運動が起こった。***** 074.txtが 助詞,格助詞,一般,*,*,*,が,ガ,ガ起っ 動詞,自立,*,*,五段・タ行,連用タ接続,起つ,タッ,タッた 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ***** 075.TXTが 助詞,格助詞,一般,*,*,*,が,ガ,ガ起っ 動詞,自立,*,*,五段・ラ行,連用タ接続,起る,オコッ,オコッた 助動詞,*,*,*,特殊・タ,基本形,た,タ,タ*****「たった」が「おこった」になったので OK。「おこなった」/「いった」などもよくなっている。JR東海は線路の復旧にあたり、およそ5分後に運転を再開しました。***** 074.txt復旧 名詞,サ変接続,*,*,*,*,復旧,フッキュウ,フッキューに 助詞,格助詞,一般,*,*,*,に,ニ,ニあたり 動詞,自立,*,*,五段・ラ行,連用形,あたる,アタリ,アタリ、 記号,読点,*,*,*,*,、,、,、***** 075.TXT復旧 名詞,サ変接続,*,*,*,*,復旧,フッキュウ,フッキューにあたり 助詞,格助詞,連語,*,*,*,にあたり,ニアタリ,ニアタリ、 記号,読点,*,*,*,*,、,、,、*****ぶつかってしまう「あたり」から「にあたり」となったので OK。など、まあ、あげていけばよくなった箇所は結構ある。が、その一方で、私は申し込みを行なった。***** 074.txtは 助詞,係助詞,*,*,*,*,は,ハ,ワ申込み 動詞,自立,*,*,五段・マ行,連用形,申込む,モウシコミ,モーシコミを 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ***** 075.TXTは 助詞,係助詞,*,*,*,*,は,ハ,ワ申 名詞,一般,*,*,*,*,申,サル,サル込み 名詞,接尾,一般,*,*,*,込み,コミ,コミを 助詞,格助詞,一般,*,*,*,を,ヲ,ヲ*****申(さる)はないだろうが...。彼女は毎日廊下に雑巾を掛けている。***** 074.txtは 助詞,係助詞,*,*,*,*,は,ハ,ワ毎日 名詞,副詞可能,*,*,*,*,毎日,マイニチ,マイニチ廊下 名詞,一般,*,*,*,*,廊下,ロウカ,ローカ***** 075.TXTは 助詞,係助詞,*,*,*,*,は,ハ,ワ毎日 名詞,固有名詞,組織,*,*,*,毎日,マイニチ,マイニチ廊下 名詞,一般,*,*,*,*,廊下,ロウカ,ローカ*****固有名詞が強くなりすぎてしまったのかな。毎日新聞の廊下じゃないんだから...。植木屋さんが来るのは来週以降になった。***** 074.txtEOS植木 名詞,一般,*,*,*,*,植木,ウエキ,ウエキ屋 名詞,接尾,一般,*,*,*,屋,ヤ,ヤ***** 075.TXTEOS植木 名詞,固有名詞,一般,*,*,*,植木,ウエキ,ウエキ屋 名詞,接尾,一般,*,*,*,屋,ヤ,ヤ*****「植木」さんを売ってしまうのか。人身売買じゃないよ...。あの喫茶店はモダンジャズを掛けている。***** 074.txtEOSあ 動詞,非自立,*,*,五段・ラ行,体言接続特殊2,ある,ア,アの 名詞,非自立,一般,*,*,*,の,ノ,ノ喫茶店 名詞,一般,*,*,*,*,喫茶店,キッサテン,キッサテン***** 075.TXTEOSあの フィラー,*,*,*,*,*,あの,アノ,アノ喫茶店 名詞,一般,*,*,*,*,喫茶店,キッサテン,キッサテン*****あの廃屋にはお化けが出る。***** 074.txtEOSあ 動詞,非自立,*,*,五段・ラ行,体言接続特殊2,ある,ア,アの 名詞,非自立,一般,*,*,*,の,ノ,ノ廃屋 名詞,一般,*,*,*,*,廃屋,ハイオク,ハイオク***** 075.TXTEOSあの フィラー,*,*,*,*,*,あの,アノ,アノ廃屋 名詞,一般,*,*,*,*,廃屋,ハイオク,ハイオク*****あのー、「あの」が一語になったのはいいとして、フィラーはないんじゃないかな。フィラーはコストを変えた方がいいのかもしれない。道ゆく人にさえ微笑みかけたいようなあかるい気持だった。***** 074.txtさえ 助詞,係助詞,*,*,*,*,さえ,サエ,サエ微笑み 動詞,自立,*,*,五段・マ行,連用形,微笑む,ホホエミ,ホホエミかけ 動詞,非自立,*,*,一段,連用形,かける,カケ,カケたい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ***** 075.TXTさえ 助詞,係助詞,*,*,*,*,さえ,サエ,サエ微笑 名詞,サ変接続,*,*,*,*,微笑,ビショウ,ビショーみかけ 動詞,自立,*,*,一段,連用形,みかける,ミカケ,ミカケたい 助動詞,*,*,*,特殊・タイ,基本形,たい,タイ,タイ*****微笑を見かけたいのかい?なんて感じで、デグレードしているものもけっこうありそう。助詞の細分類もけっこう結果が変わっていたりするので、細かく見ていかないとなんともいえないが(頭のところだけ見て、面倒になった、笑)、NTT 言語処理研究グループ --- 言語リソース --- 機械翻訳機能試験文を使うと、差分が多すぎて、ちょっと見るのが大変。やっぱり、自分の解析させたいようなものがどの程度変わっているかを調査するために、自分用のテスト文も作った方が良さそうだな。たぶん、直感からすると、品詞の大分類(名詞、動詞のレベル)自体はよくなっているものが多いが、細分類で(助詞, 格助詞←このレベル)では、若干変なものも出ているんじゃないかな。あくまで直感だけど。次のように、助詞とかはけっこう判断するのにたくさんあると、見るのが疲れる(^^;;流行はすぐに変わる。***** 074.txtすぐ 副詞,助詞類接続,*,*,*,*,すぐ,スグ,スグに 助詞,副詞化,*,*,*,*,に,ニ,ニ変わる 動詞,自立,*,*,五段・ラ行,基本形,変わる,カワル,カワル***** 075.TXTすぐ 副詞,助詞類接続,*,*,*,*,すぐ,スグ,スグに 助詞,格助詞,一般,*,*,*,に,ニ,ニ変わる 動詞,自立,*,*,五段・ラ行,基本形,変わる,カワル,カワル*****彼は経営の建て直しにあたった。***** 074.txt経営 名詞,サ変接続,*,*,*,*,経営,ケイエイ,ケイエイの 助詞,格助詞,一般,*,*,*,の,ノ,ノ建て直し 動詞,自立,*,*,五段・サ行,連用形,建て直す,タテナオシ,タテナオシ***** 075.TXT経営 名詞,サ変接続,*,*,*,*,経営,ケイエイ,ケイエイの 助詞,連体化,*,*,*,*,の,ノ,ノ建て直し 動詞,自立,*,*,五段・サ行,連用形,建て直す,タテナオシ,タテナオシ*****なんにせよ、地道な世界だなぁ(笑)
2003.04.24
コメント(0)
あとでまた書き直すので書きかけ(忘れないうちに書いておく)日本語形態素解析器 MeCab 0.75 が出ていたのでインストールしてみたら、よくなっているところもあるが、デグレードしているところもあったので、あとで指摘する。
2003.04.20
コメント(0)
『オネーギンの恋文』 を見た。ロシアの文豪アレキサンダー・プーキシンの自伝的傑作を原作とする作品。原作読んでないのだよな。画像としてはきれいだし、映画のできとしても、そんなに悪くないんだと思うけど、なーにか物足りない気がした。こういうのは文字で読んだ方がいいのかな。テンポが速いエンターテイメント系中心に見てたから、こういうのはちょっと退屈な感じがするようになっちゃったのかな。それとも、人を恋する気持ちをそもそも解せん人だから、ラブストーリーは解せんのか (^^;; でも、リヴ・タイラーはとてもきれい。○外来語のカタカナ表記(さ行)さてさて ipadic のチェックは続くのだ。辞書というのは結局、世界観そのものなのだと思う。辞書にないことは、未知の事象になるのだ。辞書に入れるか入れないか、それは世界観を決めることにもなる。どんなにがんばったって、すべての単語を入れることはできないのだから、編集者によってどうしても偏りができる。その偏りこそがその辞書の個性とでもいうものになる。なんて能書きはいいとして、例のごとく MeCab を使って『朝日新聞の用語の手引き』のカタカナのさ行を今日は見てみた。サー 名詞,固有名詞,人名,一般,*,*,サー,サー,サーディン 名詞,固有名詞,人名,名,*,*,ディン,ディン,ディンSir Din ですか。やかましそうな人だこと。しかし、ディンの固有名詞って何のために登録したのだろう。ジェームズディーンのディーン(Dean)はディンとは普通書かないし、どこから来たディンさんなのだろうか。これは、いっそのこと削除してしまった方がいいかな。で、サーディンは登録する。オイルサーディンなんてのも当然ないわけだけど、実に生活感に欠ける辞書なのだよな。まあ、新聞文などが元になっているからしょうがないのかもしれないが、その割に朝日新聞の記者の手引きのカバー率が低い。よく分からんなぁ。サワークリーム、シェービングクリーム、シームレスストッキングなどもない。サイエンティフィックやサイエンティフィックフィクションなどもない。サク 名詞,固有名詞,一般,*,*,*,サク,サク,サクス 動詞,自立,*,*,五段・ラ行,体言接続特殊2,スる,ス,スホルン 名詞,一般,*,*,*,*,ホルン,ホルン,ホルンsaxhorn だけど、サクソルンって綴る方が普通だと思うんだが、なんであえてサクスホルンなんてマイナーな綴りを用語に選択したのかは不明。で、なんだろうこの解析の仕方(動詞のス)はと思ったら、スリがお金をす「スる」とか、賭でお金を「スる」の「スる」なのだな。しかし、実際のところ、こういうパーターンはほとんどあり得ないから、解析失敗パターンとして「カタカナの名詞」「ス(動詞)」「カタカナの名詞」は、一つにつなげる後処理を入れてもいいかもしれない。誤りパターンを後で分析する必要がありそうだ。けっこうこれのおかげで未知語の場合に変になる。こんなのも同じパターン。スノーモービルとスノーを登録した方がよさそう。一瞬 MeCab のバグかなと思って Chasen を調べてみたら、Chasen でも同じだった。コスト変更したら何とかなるのかな。なんか、これよくない。ス 動詞,自立,*,*,五段・ラ行,体言接続特殊2,スる,ス,スノー 感動詞,*,*,*,*,*,ノー,ノー,ノーモービル 名詞,固有名詞,組織,*,*,*,モービル,モービル,モービルス 動詞,自立,*,*,五段・ラ行,体言接続特殊2,スる,ス,スキューバ 名詞,固有名詞,地域,国,*,*,キューバ,キューバ,キューバまぁ、日常生活に疎そうな辞書ではあるが、さすがにサンタクロースは、固有名詞-人名で登録されているな(笑)。サンタクロースが固有名詞-人名だとすると仮面ライダーやウルトラマン、デビルマン、キューティーハニー、(古いなー)といったキャラクターの類は固有名詞-人名として登録するのがいいのだろうか。ちょっと見てみよう。そんなもの登録してあるはずがないと思った君は甘い。調べてみたら、仮面ライダー、ウルトラマン、ドラえもんなんかは登録してあるのだよ。でも、名詞,固有名詞,一般 なのだな。うーん、サンタクロースは実在の人物じゃなくてキャラクターなのだから、仮面ライダーと同じカテゴリだと思うがなぁ。サンタ・ニコラスがなら、まだ人名でもいいけど。うーむ。人名の他に、キャラクターとかいうカテゴリを作って追加したらいいかもしれないなぁ。ちなみに、キューティーハニーやデビルマン、マジンガーZなどは入っていなかった。アムロなんてのも名前としては入っていない。ヤン・ウェンリーなんかもダメだな。オタク度低すぎてダメだわ(笑) 登録商標なんかもカテゴリと用意して、空いている属性にその手の情報を入れるようにするといいかもしれない。ポケモンなんかは入っていないが、ポケットモンスターなら、ポケット/モンスターでたまたま解析はできる。カタカナは長単位で登録したものも、小単位に分けて登録しておくようにすれば、何かのときにいいかもしれない。基本的に小単位のみで登録しておいた方が、当然、辞書の登録数は少なくて済むが、一つの単語としてきれいに扱いたいなら、やっぱり連続した状態で一語にしておいた方がいいな。ポケット・モンスターなんかも一語で登録しちゃう。ストップウオッチなんかも、ストップ/ウオッチで解析できるけど、サ変名詞をどうにかする処理を後で入れたときに、区切られると困る場合もあるので、やっぱりストップウオッチ一語でも登録しておく。ちなみにウォッチでなくてウオッチなのだな。ストップ 名詞,サ変接続,*,*,*,*,ストップ,ストップ,ストップウオッチ 名詞,一般,*,*,*,*,ウオッチ,ウオッチ,ウオッチ意外なことにサーフティーなんかも登録されていない。セーフ/ティーじゃお茶みたいだな。セーフ 名詞,一般,*,*,*,*,セーフ,セーフ,セーフティー 名詞,一般,*,*,*,*,ティー,ティー,ティーベルト 名詞,一般,*,*,*,*,ベルト,ベルト,ベルトうーん。長単位か短単位かは迷うものがやっぱりあるな。スチルカメラみたいなものを見ていると、デジタルカメラもあるし、分かれている方が何かできそうな気もする。ジェット/エンジンなどもレシプロ/エンジン、プロペラ/エンジン... といろいろあるから、バラでも良さそうな気もするが、世界知識という点からは、レシプロエンジン、プロペラエンジンと一単語にしておいた方がよいような気もするし...。スチル 名詞,一般,*,*,*,*,スチル,スチル,スチルカメラ 名詞,一般,*,*,*,*,カメラ,カメラ,カメラ朝日新聞はシューマイなのか。シュウマイではないのだな。で、すげえ、人名になってしまった。シューマイを食べると人を食った話になってしまう。登録せねば。シュー 名詞,固有名詞,人名,姓,*,*,シュー,シュー,シューマイ 名詞,固有名詞,人名,名,*,*,マイ,マイ,マイギブ・アンド・テークが一語で登録されているのであれば、スクラップ・アンド・ビルドみたいなものも一語で登録してしまっていいな。まあ、どこまでやるかというのは難しい問題だが、比較的よく使うものについてはできるだけ登録する方向かな。スクラップ 名詞,一般,*,*,*,*,スクラップ,スクラップ,スクラップ・ 記号,一般,*,*,*,*,・,・,・アンド 名詞,固有名詞,一般,*,*,*,アンド,アンド,アンド・ 記号,一般,*,*,*,*,・,・,・ビル 名詞,一般,*,*,*,*,ビル,ビル,ビルド 接頭詞,名詞接続,*,*,*,*,ド,ド,ドセニョーラ、セニョール、セニョリータみたいなものも意外に登録されていない。ミスター、ミセスなどは登録されているが、ミズは登録されていないな。で、こういうものがどんな品詞になるのだろうか。ミスターやミセスは名詞-一般なのだが、いいのかな。敬称とかのカテゴリで登録しておいた方が嬉しそうなきもする。外国語の敬称を入れたら名詞-接頭-人名とかいうのでミセス 名詞,一般,*,*,*,*,ミセス,ミセス,ミセスロビンソン 名詞,固有名詞,人名,姓,*,*,ロビンソン,ロビンソン,ロビンソン山田様山田 名詞,固有名詞,人名,姓,*,*,山田,ヤマダ,ヤマダ様 名詞,接尾,人名,*,*,*,様,サマ,サマ山田さん山田 名詞,固有名詞,人名,姓,*,*,山田,ヤマダ,ヤマダさん 名詞,接尾,人名,*,*,*,さん,サン,サンサー・トーマス・リプトンサー 名詞,固有名詞,人名,一般,*,*,サー,サー,サー・ 記号,一般,*,*,*,*,・,・,・トーマス 名詞,固有名詞,人名,名,*,*,トーマス,トーマス,トーマス・ 記号,一般,*,*,*,*,・,・,・リプトン 未知語,*,*,*,*,*,*,*,*ミス 名詞,サ変接続,*,*,*,*,ミス,ミス,ミス日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポンサー・トーマス・リプトンなんかは、サーが敬称じゃないのね。固有名詞でサーを登録するなって感じもするな。サーという名前もないことはないかもしれないが、普通、先頭についたら敬称だし。ミス日本なんかは、なんだか凄い人が選ばれそうな感じがする(^^;; そうやって考えると、このあたりは、まともな世界観がないという気がしてくる。ソウル 名詞,固有名詞,地域,一般,*,*,ソウル,ソウル,ソウルミュージック 名詞,一般,*,*,*,*,ミュージック,ミュージック,ミュージックいやー、韓国のソウルの音楽をソウルミュージックというという感じの解析だな。これはもうソウルミュージック一語でちゃんと登録しておくのがいいだろうな。ソ 名詞,固有名詞,一般,*,*,*,ソ,ソ,ソサエ 名詞,固有名詞,一般,*,*,*,サエ,サエ,サエティー 名詞,一般,*,*,*,*,ティー,ティー,ティーぎゃー、なんて解析してくれるんだ。これも登録だな。しっかし、こうやってみてると、かなりカタカナ語に関してはボロボロというのが分かってくる。ただいま未知語の数98。
2003.04.19
コメント(0)
SCE、「衝撃と畏怖」商標登録を取り下げで、イラク戦争の作戦名「Shock and Awe」(衝撃と畏怖)を登録商標とするのは取り下げたらしい(4/15)。まあ、妥当なところだな。最初からこうなるって分かるだろうに...。○ 外来語のカタカナ表記(か行)一昨日の続きで、MeCab でカタカナ表記をチェック。カーフェリー 名詞,一般,*,*,*,*,カーフェリー,カーフェリー,カーフェリーカー 名詞,一般,*,*,*,*,カー,カー,カーラジオ 名詞,一般,*,*,*,*,ラジオ,ラジオ,ラジオカーフェリーだと一語で、カーラジオは一語になってないのだな。これはカーラジオでも登録してしまおう。「カーリーヘアー」って死語?(笑)。このあたりも登録しておいていいだろうな。髪型とかカットの仕方とか、まとめて登録してもいいかもしれない。カッティングなども未知語。ガスクロマトグラフィー なんかは、完全に未知語になってしまう。まあ、そんなの日常の会話で出てくると怖いかもしれないが。マニア過ぎるなぁ。ガンマは未知語。ガンマーは名詞で入っている。うーむ。カタカナで未知語だったら、末尾の音ひきを削除して解析し直すとかやってもいいかな。このパターンかなり多いだろうし。キーパー 名詞,固有名詞,組織,*,*,*,キーパー,キーパー,キーパーソ 名詞,固有名詞,一般,*,*,*,ソ,ソ,ソン 名詞,非自立,一般,*,*,*,ン,ン,ンうーむ、こりゃやだな。キーパースンは登録されてるのね。こりゃキーパーソンでも登録しておくしかないか。パーソン/パースンも別途登録しておいた方がよさそう。キオスクはあるがキヨスクがないのでキヨスクも入れておこうかな。キャッシュ 名詞,一般,*,*,*,*,キャッシュ,キャッシュ,キャッシュディス 名詞,一般,*,*,*,*,ディス,ディス,ディスペン 名詞,一般,*,*,*,*,ペン,ペン,ペンサー 名詞,固有名詞,人名,一般,*,*,サー,サー,サーキャッシュディスペンサーって、IPA 辞書を作成した当時はなかったんか? ウソ、そんなことないでしょう。たぶん、カード持たない主義の人が作ったんだ(笑)。意外にキャパシティーなんてのも登録されていない。ギャラ 名詞,一般,*,*,*,*,ギャラ,ギャラ,ギャラン 名詞,非自立,一般,*,*,*,ン,ン,ンティー 名詞,一般,*,*,*,*,ティー,ティー,ティーこれはひどいなぁ。お茶の名前か?んなぁ。クエスチョン、クオータみたいのも登録されていない。クオーターはあるのか。音ひきのあるなしはどういう基準でIPADIC は入れてるんだろうな。クリア 名詞,サ変接続,*,*,*,*,クリア,クリア,クリアラン 名詞,一般,*,*,*,*,ラン,ラン,ランス 動詞,自立,*,*,五段・ラ行,体言接続特殊2,スる,ス,スコン 名詞,一般,*,*,*,*,コン,コン,コンパチ 副詞,助詞類接続,*,*,*,*,パチ,パチ,パチブル 名詞,一般,*,*,*,*,ブル,ブル,ブルなんだかなぁ。か行まで終わって、今のところ67語が未知語になっている。カタカナの場合、表記の揺れの問題もあるから、けっこう多く未知語になってしまうのだな。思ったとおりだ。
2003.04.18
コメント(0)
人類は二度の世界大戦の傷跡を未だに癒せないでいる。そして、多くの不合理な悪徳所行が繰り返される。明るい未来は、必ず、声も出さずに踏みつけられていく人々がいることを忘れてはならないだろう。その昔、ヒトラーは勝手な論理によって弱者/強者を決定し、弱者を徹底的に排除しようとしたわけだが、結局、もっとむごい、決してあらがうことのできない合理的な方法によって弱者と強者が決定されるとすれば、それはそれで、凄い世界になるのだ。今でさえ、経済力によって強者と弱者が決定し、強者が弱者を踏みつぶしているのに、これに遺伝子情報が加わるとどうなるか。ヒトゲノムの解読が終了したなんだか脳天気に書いている小泉内閣メールマガジンを見て、暗い未来を想像した。今後、特定の病気に対して特定の遺伝子の要素が関係していることが明らかになると、一人一人の遺伝子を解読することによって、その人がどんな病気にかかりやすいのかがわかり、個別対応の薬品を作ることが可能になる道が開ける一方、いわゆる悪性の遺伝子を持つヒトが明確になり、そのヒトの遺伝子になんらかの操作を加えることによってこれを排除する方法が発見されるまでは、そのヒトは悪性遺伝子の所有者という区分けがされるようになる。このうち特に問題とされるような病気に関わる遺伝子であり、その対処方法が見つからないものを所有するヒトを排除しようとする動きが生じたときに、それはヒトラーの時代の悪夢につながらないとも限らない。保険会社が、遺伝子によって保険料の違いをつける方向に動けば何が起きるか。新入社員の健康診断で遺伝子のチェックを行えば何が起きるか。結婚する前にお互いの家族親族の遺伝子情報をチェックするなどが行われたら何が起きるか。頭のいい悪いといったことの多くがある遺伝子に影響を受けることが明確になったらどうするだろう。非常に分かりやすい例を挙げると、あなたが未婚だとして、結婚相手の家系に精神の病を引き起こすような遺伝子の因子を持つ人が非常に多く、2人ばかり実際にそれによる入院経験がある人がいるとする。さてどうなるか。何が起きるか想像に難くないでしょ。あるいは、性犯罪を起こした人がいる。そのような人の遺伝子を調べてみると、ある遺伝子の要素を持つことと事件を起こすことの相関関係が非常に高いことが判明する。これは、陰電子操作が可能であることが判明する。すると性犯罪者を釈放する前には、その遺伝子操作を行うことを義務づける法律を作ろうとする動きが出てくる。それだけならまだいいが、その遺伝子の要素が発表されると何が起きるか。事件を未然に防ぐという名の下に、そうした遺伝子の要素を持ちはするが、問題をまったく起こしていない人にまで影響が及んでしまうのだ。児童虐待に関してはどうだ。児童虐待と相関関係がある陰電子の要素を持つ人は、どんなに子供好きで、すばらしい人格の人であっても、その危険性があるということから、職に就けなくなる。そんな例はいくらでも考えられる。パニックになるよこれは。もっと簡単で卑近な例を出すなら、子供を妊娠した女性が、その子供の遺伝子をチェックしてもらう。すると、将来XXの病気にかかる可能性が非常に高い、あるいは、悪性の遺伝子を持つことが明確になる。さて、ここでどうするんだ。実際のところすでにダウン症みたいなものに関してはすでに今でも妊娠中に分かるわけでしょ。ここから想像を馳せると...。でも、実際は違うのだ。あからさまなパニックになるのではなくて、徐々に裏で陰湿に動いていくのだよ。密やかな排除が行われていくのだ。だから、夢のような未来の前に、実は暗澹たる未来が横たわっているような気がしないでもない。だってそうでしょう。すべての遺伝子を操作できなければ、そういうことになる。もし、すべての遺伝子を操作できるのであれば、また、それはそれで恐ろしいことが起きる。別にヒトゲノムの解読が終わったからといって、すぐにそんな時代はこないのは当たり前なのだけど、徐々に徐々に、陰湿にそうした時代に突入していく、その幕が開いたということなのだと思う。基本的にね、ダーウィンの法則のように適者が生存を続け、不適応者が滅んでいくのは仕方ないことだし、社会の安寧を考えれば、滅びよ、と言わねばならないものもたくさんある一方で、一部の頭の悪い人が考えた判断基準によって強者と弱者が決定されば、人類という主の保存にとって、非常に不合理な結果をもたらし、種の絶滅に向かう可能性も開けてきたということでもある。まあ、あとは運任せだな。所詮自分には関係ない話だ。でも、どこまで無関心でいいのだろう。だいたい、感心をもたずにいられなくなった頃には、遅すぎるという場合がほとんどなわけだから。
2003.04.17
コメント(0)
ひさびさにDVDを借りて見た。『13 Days』。キューバ危機 が題材の映画で、緊迫感ある力作。仮に当時、両国の軍部がもっと強行に勝手に動いたら...。元大統領特別補佐官のケネス・オドネルへの百時間におよぶインタビューなどを元にしているだけに迫力あるのだ。なんとなく外来語のカタカナ表記についてしらべてみた。『朝日新聞の用語の手引き』によると、アルミホイールは自動車の部品のとき、アルミホイルは台所用品の場合に使うのだそうだ。○ 外来語のカタカナ表記(あ行)例によって MeCab で解析してみると、アルミホイルは名詞一単語で登録されているけれど、アルミホイールは、アルミホイールアルミ 名詞,一般,*,*,*,*,アルミ,アルミ,アルミホイール 名詞,一般,*,*,*,*,ホイール,ホイール,ホイールこれは「アルミホイール」一単語でも登録だな。インキと書くと、印刷の場合で、インクと書くと筆記を指すことになる。virus はウイルスでも、ビールスでもよしと。aerosol はエーロゾルなんだって。おもしろいものだ。さすがにこれは登録されていなくてしょうがないような気がしないでもないが。カタカナ表記って、なんせよ入ってきた経緯によってみょうな読み方する場合が結構あるのだよな。英語なら同じものであっても、日本語だと用途によって読み方が変わったりして。ア行の外来語を全部チェックしてみると、アート 名詞,固有名詞,人名,名,*,*,アート,アート,アートディレクター 名詞,一般,*,*,*,*,ディレクター,ディレクター,ディレクターまあ、山田ディレクターとかあるから、アートさんという名前のディレクターでも間違いじゃないんだが、確率的に「アートディレクター」で一単語になる方が多いから一単語で登録。アール 名詞,接尾,助数詞,*,*,*,アール,アール,アールヌーボー 名詞,一般,*,*,*,*,ヌーボー,ヌーボー,ヌーボーいやだわ、IPA辞書って教養なくて。Art Nouveau でございますわ(笑)。アールが助数詞ってこたぁねえでがしょ。アダージョなんかも登録されていないし。この手の言葉は弱いのかもしれない。アイシャドーや、アイバンクみたいなものは、バラになっているより、一単語になっていた方が扱いやすいから、変更なしでいいかな。なんだか、わかんなくなってくるなぁ。アカシア 名詞,固有名詞,地域,一般,*,*,アカシア,アカシア,アカシアんー、これは何だろう。アカシアなんて場所あるの。でも、植物が普通だから、一般名詞だけでいいよ。これは地名は、あかしあ台しか登録されてないからアカシア台もいれてやると。コストをいじってやるとか必要になるかな。なんだかんだで、ここには書かないがけっこう未知語がある。エディターなんか登録されていないのが不思議。オール・オア・ナッシングが一単語は笑えた。まあ、こいうのは微妙なところかもしれないが・・・。エコノミックアニマルなんかも一単語。こういうのは、理想的には細かい単位で切った上でつなげてあるのがいいが、MeCab じゃ、そういうことはできないから仕方ないか。さて、このネタで10日ほど持たせるか(^^;;
2003.04.16
コメント(0)
保険について突然考える。保険料算定のためのデータマイニングとかって楽しいんだろうな。こういうプロファイルだと・・・で、パーセンテージ的には・・・でいくらにすると、勝ちになると。そういう計算おもしろそう(笑)保険も賭け事だから胴元が勝つけど、まあ、胴元が勝たないと本来の機能を果たせなくなるし。保険と宝くじって、ある意味、同じ仕組みなのだよなぁ。本質的にはお金をたくさん集めて、それを偏った形で分配すると。宝くじはランダムに配布するけど、保険は必要な人に配布されるところが違うように思えるけど、保険の会社からしてみるとランダムだから同じことだな。それよりも、本質的な違いは、支払いの量が一定しているかいないかということで、実は、宝くじの発行者よりも保険の発行者の方が、賭博性が高いということになる。つまり保険は宝くじより、賭博性が高いということになる。詭弁のように思えるが、実際、個人の目から見なければそういうことになるだろう。視点を変えてみると、おもしろいものだ。ちなみに宝くじは、かなりの部分が購入者に支払われず、公共的なところに還元されるわけだから、公共性は保険より宝くじの方が高いのだよな。税金を少し高くして、上乗せした部分を宝くじ的な運用にして、当たると払った額の何千倍も返ってくるとかいう、無茶な国家があってもおもしろい。すでに個人ベースで考えると、支払った税金より受けている利益の方が多いのが普通だと思うが。にも関わらず、税金を払って損をした気分になるというのも不思議な感覚ではある。メンタリティーというのは実は合理性に欠く不思議なものだ。分配に関わる不公平感か。確かに宝くじでも、当選する人が恣意的に操作されたとすればアンフェアーな感じはするな。不公平感というのもおもしろい感覚。なんにせよ生活における賭博性というのは、考えてみるとおもしろいな。だいたい、人生まるごと賭博みたいなもんだしな。一流大学に入りたいだとか、一流企業に入りたいだとか、そういうのもある意味賭博性を下げる行為なのだろうけど、一定の投資効率を持つ限りは有効性を持つ戦略なのだろう。賭博性を下げる一番効率的なやり方は、ルールを変えてしまうということなのかもしれない。都合が悪くなったらルールを変える。ルールを作る胴元が一番強いのだよな。
2003.04.13
コメント(0)
PS2 の調子がよくなったので『銀河英雄伝説』の DVD を見る。見ながら、自分はアニメファンではないなぁと思った。エンサイクロペディア銀河英雄伝説という付録の DVD がついているのだが、声優さんとかの話聞いても、あまりおもしろいとは感じないのだ。正直、これはなくてもよかった、とか思った。でも、ファンの人だったら、これはすごく嬉しいのだろうなぁ、人の好みは様々だ、とつくづく思う。しかし、こんな情勢のときに、そんなもの見てるなんてなんなのだけど(^^;; 銀河英雄伝説はやっぱり小説も読まねば。amazon に行って注文しようとしたら、『クラウディア 最後の手紙』というのがおすすめで出てきたが、思わず「クラウゼヴィッツ」に読めてしまった。いかん、いかん。ついでなのでちょっといろいろ検索してみると、『麻薬と紛争』―麻薬の戦略地政学―なんて本を見つけてしまった。地政学で世界を読む―21世紀のユーラシア覇権ゲーム、ポスト・アメリカ―世界システムにおける地政学と地政文化 とか、このあたりもおもしろそう。イラク戦争―元国連大量破壊兵器査察官スコット・リッターの証言 ブッシュ政権が隠したい事実、アメリカはなぜイラク攻撃をそんなに急ぐのか?―フォーリン・アフェアーズ・コレクション とかおもしろそう。このページはおもしろいこと書かれているな。探すといろいろおもしろいものが見つかるかもしれない。アメリカの国家犯罪全書 もおもしろそうだ。しかし、現実というものはお話の世界とは違い、一人の人間のペンで簡単に書き留められるほど単純な構造ではないのは確かだな。○ 鳥が飛ぶ、鳥は飛ぶ古い切り抜きを整理していたら、次の例文が出てきた(C言語マガジンの日本語処理の特集かな)。で、さっそく係り受け解析器の CaboCha にかけてみる。「鳥は飛ぶとき羽を広げる。」というのと「鳥が飛ぶとき羽を広げる。」とは本質的に何が違うんだろう。1. 鳥は飛ぶとき羽を広げる。 鳥は-------D 飛ぶ-D | とき---D 羽を-D 広げる。2. 鳥が飛ぶとき羽を広げる。 鳥が-D 飛ぶ-D とき---D 羽を-D 広げる。「は」と「が」が違うだけで、解析結果が変わるものだな。1 だと「鳥は飛羽を広げる」が簡単に取り出せて、2 だと「鳥が飛ぶ」が簡単に取り出せる。また、1 の場合、「(鳥が)飛ぶ」を取り出そうとすると、飛ぶのは何か(鳥)を補完してやらないとならないし、2 の場合、「(鳥が)羽を広げる」の場合も、(鳥が)を補完してやらないといけない。「は」と「が」の使い分けというのは、実際、感覚以上のものとして区別しようとすると難しいものがある。ふと、次の文を書いてみる。「くちばしの黄色い鳥が、飛び上がるとき羽を広げた」、「くちばしが黄色い鳥が、飛び上がるとき羽を広げた」、「くちばしは黄色い鳥が、飛び上がるとき羽を広げた」、「くちばしだけは黄色い鳥が、飛び上がるとき羽を広げた」、「くちばしだけが黄色い鳥が、飛び上がるとき羽を広げた」2. の文って実は、特殊な文だったりするかもしれない。「鳥が飛ぶとき羽を広げる」「鳥が飛ぶとき羽を広げるのはごく普通のことです」「一羽の鳥が飛び上がるとき、羽を広げた」。うーむ、日本語ってよく分からないところがあるなー。「は」と「が」の使い分けや、「が」と「の」の使い分けって、難しいな。A:「僕( )、おなか空いたよ」B:「えっ、誰が?」A:「僕が」最初のカッコに「は」と「が」のどちらを入れるか聞かれたら、「は」と答えるのが普通だろうか。でも、後ろでは「誰が」となるのが普通だろう。「誰はおなかすいたの?」とは言わないな。言える、言えないという感覚はなんなのだろう。座りの悪さというのは、人、地方、年代によっても変わるしな。「鳥()飛ぶとき羽()広げる」助詞って、そもそも冗長性を作り出す言葉なのかもしれない。なくても意が伝わらないことはないし。助詞を軸にしていけばこそ見える世界と、助詞を取り除いてしまった方が見える世界もあるかもしれない。
2003.04.12
コメント(0)
このところ、また日記を書くのをさぼってしまった。今日は朝から豚肉を焼いて食べたが、やっぱり、肉はちゃんと下味を付けてから焼いた方がうまい。面倒だったので、塩コショウもせずに焼いてしまったのだが(^^;;、焼いてから調味料をかけてもダメだ。ちゃんと下準備をしないとうまくないな。今日は床屋にいって髪の毛バッサリきってしまおう。伸び放題で原始人のようになってしまった。原始人見たことないんだけど・・・。と思ったが、やっぱりやめる。うーむ、腰痛が・・・ということで、椅子にじっと座っているの辛いし(^^;;PS2 が DVD をまともに読めなくなってからしばし立つが、とうとうぶち切れて封印のシールをはがして PS2 を開けてしまった。どうせ、レンズにほこりがついているだけだろうし、そんなことのために 9000円とか修理費がかかったらあほらしいと思ったのだ。で、思い切って開けてしまった(よいこの皆さんはやめましょう)。で、開けてみると、目でぱっと見て分かるようなホコリはついていなかった。気にせずレンズクリーナーで読み取りレンズをきれいにしてやって、箱を閉じて DVD を入れる。一発で認識。直った直ったー。ということで、『銀河英雄伝説』の残りの DVD を見るのであった。○南瓜で遊ぶ日本語形態素解析器 MeCab の作者のくどう氏のきまぐれ日記を眺めてみる。日本語係り受け解析器CaboCha/南瓜 cabocha-0.4pre2.exe がWindows版のバイナリのみ公開されているのでダウンロードしてくる。チグリス川とか、7日 とか表示にタグがついてくれるのね。うーむ、これいいかもしれない。出力に XML 表示もあるのか。今時、XML ぐらい扱えないといかんだろうし、XML ちょっと勉強して、XML ベースで人工無能に読み込んでみるのもおもしろいかな。Python 側でも、このデータ構造に合わせてオブジェクトを作ってしまえばいいか。やっぱり、人工無能には形態素解析の結果だと、その後の処理が面倒だし、せっかく係り受け解析器まで公開されているのだから、これを使わん手はないないなぁと思う今日この頃。これはありがたく、遊ばせてもらうことにしよう。それにしても、イラク軍 のようにひとまとまりで組織(ORGANIZATION)のタグを付けてくれるのはありがたい。ARTIFACT, MONEY, DATE, TIME, PERSON, LOCATION, PERCENT, OPTIONAL などのタグがあるようだが、この部分が拡張できるとおもしろいのだけど。ほんとは、ORGANIZATION の下位構造として、会社(COMPANY) とかがあって、XX株式会社であれば COMPANY を指定し、そうするとそれは ORGANIZATION でもあるみたいな感じになって、それが3階層作れると完璧なのだけど。作らんものはなんとでも勝手なこと言えるな(笑)それにしても、くどう氏の日記にも書かれているが、辞書の不整合を直さないと、やっぱりよく分からない振る舞いが出てくる。辞書を直そうと思いつつ、いったいどこから手をつけていいんだかで思考停止中。ゼロ辞書からはじめて、解析した文書にある単語のみ追加していくとかやったらどうなるんだろう。ゼロからはじめて、使われた単語は、既存の辞書から取り出して追加する。まったくのゼロだとさすがにどうしようもないので、助詞、助動詞、代名詞程度から始めてみる。どの程度、それで動くんだろう。まずは、自分の日記を解析させて、徐々に追加していくとかしてみるかな。1単語登録するときに、類似のものも整合性を持つように登録すると。1人の人間の日記の語彙などある程度限られているだろうから、1年もしないうちに、ある程度カバーできるようになるんだろうか。にしても、会話体にかなり近い、文法的に言えばかなりよくない表現も多いから、こけまくるだろうな。それもまた楽しと。なんにしても、ちょっと地道に勉強しないといけないな。といいつつ、日々は過ぎる。
2003.04.10
コメント(0)
家の前の桜並木がきれいだ。桜餅でも食べたくなる。もう数十年昔のこと。私が通っていた小学校は、校庭の周りがぐるーっと桜で囲まれていた。小学校の名前にも桜がついていたから、当然の成り行きだったかもしれない。「緑萌え立つ武蔵野の小川の流れ鳥の声...」って校歌だった。中学校も校庭の周りに桜が植えてあったかな。でも、その中学校はもうなくなってしまった。俳優座の裏にあった中学。あれ、校歌が思い出せないや。思い出せそうで思い出せない(^^;; 「はなだ色」がどうしたこうしたとか入っていたかな。いかん、もう歳だなー。逆行性健忘ってやつで、新しいことから忘れていく。えっ、3日前に何食べたかなんて、当然覚えてないのだ。あなたは、3日間に食べたもの全部言えるだろうか。最近、自分で凄く記憶力が落ちていると思うのだが「としをとるのはすてきなことです、そうじゃないですかぁ」とも思う。「わすれっぽいのはしかたがないです、そうじゃないですか」。でも、悲しい記憶の数ばかり飽和の数より増えて、忘れるよりほかなくなるよりかは、脳細胞がどんどんおっ死んで、単にボケてきただけと思う方が気持ちがいいな(笑)。で、人工無能の場合、その気になれば、すべての発言を記憶装置の量が許す限り覚えておいたり、過去の発言の中から何かを引っ張り出したりすることも可能なわけだが、覚えたり、忘れたり、ということをどうさせていくか、というのはやっぱりポイントになるのかなと思う。どうあがいても、手作業で作ることができるデータの量には限りがあるし、それを軸にしてしまうと、どうしても反応が単調化してしまう。でも、外から入ってきたものを無制限に自分の発言に加えていくことも、会話の質の向上に必ずしもつながらないということも明白。さてどうしたものか。やっぱり、ときどき、睡眠時間をとって、記憶の再構成をしてやる必要があるんだろう。でも、何をどうやって?単純なところから始めると、やっぱり、単語レベルの出現頻度なのだろう。たくさん出てくる単語というのは、やっぱり、強化されるべき。でも、延々と蓄積の総計からそれを求めていたのでは、どうしても固いものになってしまう。そうすると、短期、中期、長期という形で、総計を求めて、一定の閾値を超えたもののみが長期記憶に入るような仕組みというのも軒並みだがいいのかもしれない。知識ベースの人工無能には、中期の記憶をごっそり落としてしまうとというのも意外に有効かもしれない。中期の記憶は、長期記憶を形成するためだけに使用し、そこから何かデータが直接抽出されて、それが会話に反映されるなどということがないようにする。
2003.04.05
コメント(0)
いかんなぁ。ぜんぜん、人工無能が進まない。このところ、また、日記をさぼりがちだし。で、たとえば、人工無能との会話で「いかんなぁ」と入力されたときに、なんて返したらいいのだろう。とりあえず形態素解析すると、次のようになる。いかんなぁ。いかん 動詞,自立,*,*,五段・ラ行,体言接続特殊,いかる,イカン,イカンなぁ 助詞,終助詞,*,*,*,*,なぁ,ナァ,ナー。 記号,句点,*,*,*,*,。,。,。「いかん」=「いけない」の同義語の辞書を持てば、「いけないなぁ」。「なぁ」というのは、たとえば曖昧な感情という属性、あるいは、つぶやきという属性を持たせれば、いちおう、相手の意図は文としてはとらえられる(文脈をとりあえず抜きにして)。で、「いかんなぁ」というときに、どんな答えが返ってくることを期待するのだろう。前に日記で書いていた単純な鸚鵡返しのパターンを応用すれば、「いけないのですか?」あるいは、「いかんのかぁ」みたいなことはできるだろう。やっぱり、それだとおもしろみがなくなってしまう。「いかんなぁ」「いかんのですか。で、何が?」とかすると、ちょっとは会話っぽくなる。このとき、「いけない」が何か目的語を本来とる構文であるという情報を持たせ、「xxx はいけない」というパターンを作り、「xxx」が欠けているパターンが来たら、そこを問い合わせるということも可能かもしれない。これとは別に、「いかん」という単語に対する反応パターンを用意して、なんらかの確率でどちらかに振り分けるというところが限界かな。でも、考えてみると無能:「今日はなんだか調子悪いのです」相手:「いかんなぁ」無能:「何がいかんのですか?」これだとちょっと間抜けな会話って感じがする(これは単純マッチのパターンを用意しておけばできるが、単純マッチのパターンを嫌うなら)。これよりもむしろ、無能:「今日はなんだか調子悪いのです」相手:「いかんなぁ」無能」「そうです。いかんのです」たとえば、相手の言葉をここで、肯定してしまうということも考えらるし、ある意味、その方が自然な会話なのだけれど、これだと、ここで会話が完結してしまう。会話というのは、ある意味、そういう小さなまとまりが連続したものだと考えられるのだが、この流れをできるだけ長くなるように誘導するのが、人工無能との会話を楽しくするためには必要なのかもしれない。ここで、相手が「何がいかんの?」と仮に聞いてくれれば、またそれに対する応答をストーリーとして用意(この場合は、質問に対する答えを用意するパターンを格納)しておけば会話が続くかもしれない。受けと答えとのストーリーパターンを用意するという方向性も考えていいのかな。「何が...」というパターンの質問をされると文脈処理をしなくてはならなくなって、大変で面倒だけど。無能:「今日はなんだか調子が悪いのです」相手:「あっ、そう。コンピュータでも調子悪い日あるの」(質問=コンピュータに調子が悪い日があるか)無能:「コンピュータにだって調子が悪い日があるのです」相手:「ウソつけ」(ウソつけ、に対する単純マッチングパターン)無能:「嘘つきは泥棒の始まりといいますが、残念ながら私には手足がないので泥棒はできないのです。したがって、ウソは私にはつけません」相手:「なんか、むちゃくちゃな論理じゃないかい?」(xxx じゃないか、に対する単純マッチングパターン)無能:「はい、むちゃくちゃな論理ですね」相手:「やっぱり、調子が悪いのね」(質問=調子が悪いのか+文脈処理)無能:「はい、だから、そういったじゃないですか」相手:「ちょっと試してみたのさ」(試してみた、に対する単純マッチングパターン)無能:「もっと試してみてください。どーんと来い!」さて、これだけの会話を交わせるようになるためには、どんなことが必要なのだろう。人工無能を発展させるときに、一つの方向性としては、感情に対してビビットに反応させていく方向があり、もう一つには、トピックあるいは知識に対してビビットに反応させていく方向があるかもしれない。そうすると、やっぱり、ある程度、構文を意識しないといけない。形態素解析だけでは、なかなかそういう次元にたどり着くのが難しい。あと、文脈を保持するためには、いったい何文程度、過去の発言を記録しておく必要があるか。これは、処理の遅さをきにしなければ 、会話全部でいいのだよな(笑)。発言に対する肯定と否定とか、キーワードとか、ある程度、範囲を絞って。それにしても、どんどん仕様ばかり膨らんでいくなぁ。ちょうど 日本語係り受け解析器 CaboCha/南瓜のバージョンも新しく出ていることだし、これを使ってみることにしようかな。試しに解析させてみる。今日は天気があまりよくありません。 今日は-------D 天気が-----D あまり-D | よく-D ありません。この形式だと、人間が見て分かりやすいかもしれないが、人工無能からちょっと使えない。で、-f1 オプションをつけて、もう一度やり直し。今日は天気があまりよくありません。* 0 4D 0/1 3.70684451今日 キョウ 今日 名詞-副詞可能は ハ は 助詞-係助詞* 1 4D 0/1 4.41865572天気 テンキ 天気 名詞-一般が ガ が 助詞-格助詞-一般* 2 3D 0/0 0.36188985あまり アマリ あまり 副詞-助詞類接続* 3 4D 0/0 0.00000000よく ヨク よい 形容詞-自立 形容詞・アウオ段 連用テ接続* 4 -1O 0/2 0.00000000あり アリ ある 動詞-自立 五段・ラ行 連用形ませ マセ ます 助動詞 特殊・マス 未然形ん ン ん 助動詞 不変化型 基本形。 。 。 記号-句点この形式なら扱えないことはない。Python の API はないみたいだが、どっちにしろ、API を持っている MeCab でも、面倒なので標準入力から結果を読み込んで使っちゃっていたし、同じようにして、Python に CaboCha の結果を読み込むようにしてみよう。* で始まる行は、係り受け情報の出力で、4D とか 3D とか2番目のフィールドが、係り先の文節の番号を示しているのだな。D が係るで、O が係らないか。こうなったら、学習データから作るかな。なんだか2年以上かかるコースに入ってきたきた気もするが・・・。なんにせよ、実際の人工無能の会話用データベースを作っていくのと平行してやっていけるし。で、参考に 京都大学テキストコーパス Version 3.0をダウンロードしてきて中身を眺めてみる。げーっ、やっぱり大変だなぁ。めげるめげる。よく、こんなのやったわなと感心する。よく見ると、「らぐびーWさかずきが」とか、けっこうそういうデータ入っているのね、これが(^^;;。こういうの「Wはい」で辞書登録すべきじゃないんだろーか・・・。でも、やっぱりすごい労力。いったいどのくらいの時間かかったのかな。地道なのって苦手(笑)。でも、もうちょっと調べてみる。このデータは 日本語構文解析システム KNPを使ってまず解析させて、それを手作業で直したものなのだな。手作業で全部作るより、KNP を使って解析した結果を手作業で修正した方が、やっぱり楽かな。ふーっ。CaboCha の入力フォーマットを確認する。形態素解析、文節区切り、素性選択まではなんとかなるとして、係り受け解析 はやっぱり、適当な書き方をしたものから自動変換でもするようにしないとかなり辛いな・・・。うーん、どうしたもんかなー。でも、ここまで来たら、もう徹底的にやるぞ(笑)。だって、やっぱり、既存のタイプの人工無能だと、会話してても、どうしてもおもしろくないんだもの。なんにせよ、ちゃんと落ち着いて眺めてみないと手がでないなぁ。
2003.04.04
コメント(0)
ジャストシステムの 日本語パワーアップサイト ATOK.comに、村上龍の日本語問題 という特別企画がある。問題に答えると「抽選で10名様に村上龍氏のサイン本を進呈」らしい。ジャストシステムって、最近、「日本語」に力を注いでこそ生き残っていけるということがよく分かってきたみたいで、こういうサイトを作ってみたり、みんなで作るATOK辞書とか、ATOK方言体感サーバーとか、企画をやっているのね。ATOK 自体も関西弁対応したりとか。全国方言WEB ほべりぐなんていうのもおもしろい。ここでは ATOK16/15 用の方言辞書をダウンロードできたりする。Microsoft Word と競争していた時代は「国産」ということを全面に出して勝負していたようだが、あきらかにブランディングとしては誤りで、「国産」なんてことはもう一言も言わずに、「日本語」を全面に出して、それを「地方性」ということによって引き立てるというよい方向に進んでいると思う。ジャストシステムの日本語テクノロジーなんていうページも、むちゃくちゃ地味な内容だけどもいい。で、また、辞書が商売になるということを、実践するようになってきたのね。歴史用語変換辞書 for ATOK16 とか、電気・電子・情報17万語変換・対訳 for ATOK16 w16 とか、いろんなものを売っている。開発しているのはジャストシステムではなくて、あちこちの専門の会社なのだけど、これは方向としていいと思う。辞書を作ったり、配布したり、共有したり、同期させたり、というところに焦点を絞っていれば、ネット企業の顔も明確にできるわけだし。ATOK Business Solution 辞書配信システムとか、InternetDisk とかいう方向はすでに出しているわけだけど、ここはまだまだ発展させられるし。というかまだしょぼい。まあ、実際にこうしたらいいというアイデアはあれこれあっても、実装するのに時間がかかるだろうからしょうがないかな。Just my shop では、こういうわけの分からないものも売っているが、学習方面をターゲットとしてとらえて、とにかく家庭に入り込みという一つのやり方としてとらえられないことはないが・・・。写真に日記をつけて、楽しかった思い出の写真を探したりとか、そんな製品だったら日本語処理という路線がだせるだろうが。ん、フォントはまだ売っていないのだな。そういえば、■ATOK技術情報 <ATOK10/ATOK11 for Windows アプリケーションプログラムインターフェース仕様書> の ATOK16版とか、早いところ公開した方がいいだろうな。こういうのは、実際に使うか使わないかという問題だけでなくて、イメージの問題もあるのだ。まあ、人の会社だからどうでもいいや。何はともあれ、がばれジャストシステムだな。まあ、もっとがんばれ自分ではある(笑)
2003.04.01
コメント(0)
全15件 (15件中 1-15件目)
1
![]()
