傀儡師の館.Python

傀儡師の館.Python

PR

Calendar

Keyword Search

▼キーワード検索

Archives

2024.09
2024.08
2024.07
2024.06
2024.05

Profile

kugutsushi

kugutsushi

Free Space

設定されていません。
2003.05.05
XML
カテゴリ: ことばの処理
ACADEMIC RESOURCE GUIDE は、おもしろいし役に立つなぁ。ここで知ったのだが、 平成15年度国立情報学研究所オープンハウス というのが 5月27日に開かれるのだな。「量子コンピュータの最前線」ってなんだか分からんがおもしろそうだな。で、さらに国立情報科学研究所のサイトを見てみると、 学術情報データベース実態調査報告書 なんておもしろげなものが見つかった。 大学Webサイト資源検索(JuNii大学情報メタデータ・ポータル試験提供版)の公開 なんてのもあるな。いいことだ。ちなみに 大学Webサイト資源検索 から「形態素解析」で検索してみたけど、0件。「構文解析」0件。「自然言語処理」だとかろうじて4件。「コーパス」5件。こういうので、簡単に論文を探して大学関係者でなくても、一般人が気軽に論文を読めるようになるとすばらしいのだが...。まあ、こういうのは、あちこちで重複投資になっているところがあるだろうから、無駄金使ってまぁというところもあるが、こういう動き自体はいいことだと思う。

○ アリスのぶつ切り その1

とりあえず、昨日、 ルイス・キャロルの 『不思議の国のアリス』(Alice’s Adventures in Wonderland) を題材に、遊んでみることにきめた。で、この翻訳については「あらゆる形で自由に利用・複製が認められる。」ということなので、著作権表示を明確に入れ、形態素解析や係り受け解析にかけてギタギタに刻んでみることにした。というわけで、当分の間、アリスのぶつ切りということで進めてみようと思うが、なにせ思いつきなので、途中で気が変わるかもしれん。

で、まあ怖い者知らずというのだろか...。 「何をしてもいいとはいえ、一応翻訳のプロジェクトなので、原文を大幅に変えるようなものはその旨明記しておくこと。ここらへんの「大幅」とかの解釈は、もちろんかなり裁量が入ってはくる。」

なお、翻訳文を直接引用した箇所については、基本的に「 このような形で緑色で記述する 」こととし、分かち書きしたものに関しては、原文を別途載せてある限り特に色を変えることはしない。

後日の日記には、このページへのリンクを張っておくことにでもするかな。で、めんどうなことはこの程度にしておく。まあ、一応仁義を切っておこうかと(笑)。ついでといってはなんだが、普段、日本語形態素解析器 MeCab やその辞書 IPADIC などについても、ダメじゃんとか書くことがあるが、これは基本性能を否定するわけではなく、基本性能を認めた上で、ここがいかんのじゃないかというのをただ書いているだけなので誤解のなきよう。その筋の方なら、そのあたり分かっていただいているものかと思うが、非常に感謝して使わせていただいているわけなのだ。最近、悪いところばかり引きずり出していたので、念のため。よく分かっていない人が読んで、ダメなんだと思われちゃうと申し訳ないし。あぁ、私は、なんて小心者なんだ。

でもって、まずは、人工無能用に最終的には利用できないかなぁというのがあるので、発話の部分だけを抜き出してしまうことにする。ここでの発話の定義は、開きカッコ”「”と、閉じるカッコ”」”の間に挟まれている文字列をさすことにする。うまいこと、カッコが対応しているものだけだといいのだけど、まあ、やってみるのだ。

さらに、この前段階として、空白(スペース、タブ、改行等)以外の文字列のうち、 ”。””!””?”を区切り文字として区切った単位を文として、文の単位に切り分けたリストを作成しておくことにする。

面倒なのは、
のようなパターンと、 「アリスはうでを組んで、暗唱をはじめました。* * * * *『ウィリアム父さんお歳をめして』とお若い人が言いました。 の区別。つまり、 『えらい小さなハチさん』 は、詞?の題名を指している『二重括弧』なのだけど、『ウィリアム父さんお歳をめして』は、発話中に含まれる発話だから『二重括弧』になるのだな。で、この場合は本来「一重カッコ」と同じ扱いにして、会話として取り出すという手もあるのだけど、面倒なのでその辺は適当にするかな。

ということで、前書きで今日は終わってしまった。



『不思議の国のアリス』の翻訳の著作権について

『不思議の国のアリス』(Alice’s Adventures in Wonderland) の翻訳については、山形浩生氏の訳を利用させていただきました。翻訳の著作権表示は次のとおりです。



(c) 1999 山形浩生
本翻訳は、この版権表示を残す限りにおいて、訳者および著者にたいして許可をとったり使用料を支払ったりすることいっさいなしに、商業利用を含むあらゆる形で自由に利用・複製が認められる。(「この版権表示を残す」んだから、「禁無断複製」とかいうのはダメだぞ)

プロジェクト杉田玄白 正式参加作品。詳細はhttp://www.genpaku.org/を参照のこと。


(c) 2003 傀儡師



って、まあ、この日記自体をどうこうしようとする人はいないだろうけど(笑)、翻訳文との関係で、一応記述しておくことにした。翻訳を含むページには、次の印をつけておくことにしようかな。 copyright
(なお、この画像は 海のフリーそざい かいようそざいしつ の素材を使わせていただきました)。





お気に入りの記事を「いいね!」で応援しよう

Last updated  2006.09.11 23:39:01
コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

© Rakuten Group, Inc.
X
Mobilize your Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: