2004年06月20日
XML
カテゴリ: カテゴリ未分類
3月末に着手して以来、3ヶ月かかって、ようやくの、対策完了です。

再編集版公開直後の2003/5/4の集計では、22065件の注釈があり、そのうち、1615件がリンク切れしていました。しかし、昨日までに、そのほとんどを修正し、昨日(2004/6/19)時点での集計では、22804件の注釈、3件のリンク切れとなりました。3件、残っているのは、注釈と本文が対応しておらず、機械的に修正するのは危険と考えたためです。

リンク切れの原因は些細なもので、誤字、脱字、送り仮名の違い、濁点の有無、漢字とひらがなの違い(「たまふ」か「給う」かなど)、異字体漢字(壷と壺など)がほとんどです。中には、ある段の最後の注釈が次の段の最初の方の記述に対する注釈だったり、逆に最初の注釈が前の段の最後の方の記述に対する注釈だったりすることや、段見出しの形式が誤っていて、一段落のすべての注釈がリンク切れになってしまっていたものなどもありました。(注)
単純な修正ばかりとはいえ、これだけの量があると、やはり時間がかかりますね。結局、着手から、3ヶ月もかかってしまいました。もっとも、その間かかりっきりというわけではなく、3月末に2日程度、ゴールデンウィーク中に2~3日、先週と今週で合わせて3日程度です。
たった1615件の単純な修正だけで、これだけ時間がかかってしまうのですから、22804件もの注釈を書かれた渋谷教授の労力は、相当なものだったに違いありません。本当に、頭が下がる重いです。

以前から、このリンク切れ対策は今後の課題に挙げており、ずっと気になっていたのですが、1615件と件数が多いことから、あいまい比較を行って対策するつもりでいました。しかし、一言であいまい比較といっても、難しい点が多く、それで全部対策できる見通しも得られなかったため、3月末ごろ考え直し、1件ずつリンク切れの原因をチェックして、変換プログラムの入力ファイルを修正するという方法を取りました。つまり、渋谷教授のオリジナルサイト(「源氏物語の世界」)からダウンロードしたファイルを、そのまま再編集プログラムに入力するのではなく、私が一部修正したものを入力することになります。

これまでにも、私が一部修正したファイルを再編集プログラムに入力することは行っていました。ただし、それは、修正しないと再編集プログラムが誤動作を起こすような問題の大きいものだけでした。修正ファイル数は、2004/1/7時点で51ファイルに達し、決して少なくはありませんでしたが、修正個所は各ファイルとも数箇所程度で、全体でも、およそ200件程度ではなかったかと思います。
それが、今回の対策で、修正ファイル数は118ファイルに増え、修正個所も、おそらく2000個所近くに達しているのではないかと思います。

これだけ修正すると、単純な修正ばかりとはいえ、もはや、再編集プログラムを使って機械的に修正しただけです、とは言いづらくなってきました。そこで、今回から、この修正版もアップし、細目次ページの右上にある「オリジナルへのリンク」からリンクするようにしました。
DF などのテキスト比較ツールを使って比較して修正内容を把握してください。

これだけたくさん修正すると、次に渋谷教授のオリジナルサイトのコンテンツが更新されたとき、ついていけるかどうかが心配です。本当は、今回の修正内容が、オリジナルサイトに反映されるとうれしいのですが、実績の無い私の修正など、簡単には受け入れてもらえないでしょうね。
とりあえずは、何とかして見やすい比較リストを作成するなどしてから、渋谷教授に今回の修正内容を正式に報告したいと考えています。


(注)初期の頃(再編集版公開前)は、他に、句読点や引用符の有無もリンク切れの原因の原因になっていたのですが、注釈は句読点や引用符なしで統一されていたので、再編集版公開時には、すでに、句読点や引用符の有無だけではリンク切れにならないように対策してありました。これを対策する前のリンク切れは、5000件以上あったように思います。





お気に入りの記事を「いいね!」で応援しよう

最終更新日  2004年06月20日 19時24分10秒
コメント(0) | コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x
X

PR

×

© Rakuten Group, Inc.
Design a Mobile Site
スマートフォン版を閲覧 | PC版を閲覧
Share by: