piyotaの【ちぇブラで行こう】

PR

カレンダー

コメント新着

piyota0 @ Re:ロワジールホテル豊橋(06/14) レインジャケットがほしい <small> <a h…
piyota0 @ Re:ヴィアインプライム札幌大通(札幌)(06/11) 【琵琶湖コアユ釣り】爆釣したマル秘エサ…
piyota0@ Re:2024年の目標というか予定というか(01/07) 始発で河和に電車釣行の時のシミュレーシ…
piyota0 @ Re[1]:2024年の目標というか予定というか(01/07) 衣浦トンネル東詰 碧南緑地の南角でシー…
piyota0 @ Re:2024年の目標というか予定というか(01/07) 05:41発 本山(愛知県) 名古屋市営東山線高…

プロフィール

piyota0

piyota0

キーワードサーチ

▼キーワード検索

2010.01.20
XML

【Vine Linux】IdeaPad U350 & Vine 5.0 苦闘録その4
apache2 + namazu-cgi 全文検索可能にしておき 、PC上で読む。

これがやりたいがためにノートパソコンにlinuxを入れたといっても過言ではない。それがVine 4.2までは楽勝だったのに、Vine 5.0になってえらくめんどくさくなってしまった。

apache2
まずhttpdはapache2である。設定ファイルが小分けされていていちいちうざいのだが、ともかくこれをとってきておく。

defaultのhome directoryは/var/www/

/var/www/html の下にpdfというディレクトリをつくって、その中に論文pdfファイルをいれておく。

namazuがいない

apt-get install namazu
apt-get install namazu-cgi
apt-get install tknamazu

namazu-cgiのdefaultのindex directoryは /usr/share/namazu/indexなので要注意。
/var/namazu/indexではない。

ちなみにpdfを全文検索するときのmknmzrc設定は以下のとおり

package conf; # Don't remove this line!
$HTML_SUFFIX = "html?|[ps]html|html\\.[a-z]{2}";
$ALLOW_FILE = ".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text
"|.*\\.gz|.*\\.Z|.*\\.bz2" . # Compressed files
"|.*\\.pdf|.*\\.PDF" . # PDF
"|.*\\.doc|.*\\.xls" . # Word, Excel
"|\\d+|[-\\w]+\\.[1-9n]"; # Mail/News, man
$SEARCH_FIELD = "message-id|subject|from|date|uri|newsgroups|to|summary|size";
%FIELD_ALIASES = ('title' => 'subject', 'author' => 'from');
$NON_SEPARATION_ELEMENTS = 'A|TT|CODE|SAMP|KBD|VAR|B|STRONG|I|EM|CITE|FONT|U|'.
'STRIKE|BIG|SMALL|DFN|ABBR|ACRONYM|Q|SUB|SUP|SPAN|BDO';
$ON_MEMORY_MAX = 5000000000;
$FILE_SIZE_MAX = 16000000000000;
$TEXT_SIZE_MAX = 1600000000000;
$WORD_LENG_MAX = 2048;
%Weight =
(
'html' => {
'title' => 16,
'h1' => 8,
'h2' => 7,
'h3' => 6,
'h4' => 5,
'h5' => 4,
'h6' => 3,
'a' => 4,
'strong' => 2,
'em' => 2,
'kbd' => 2,
'samp' => 2,
'var' => 2,
'code' => 2,
'cite' => 2,
'abbr' => 2,
'acronym'=> 2,
'dfn' => 2,
},
'headers' => 8, # for Mail/News' headers
);
$MAX_FIELD_LENGTH = 900;
$NKF = "module_nkf";
$KAKASI = "module_kakasi -ieuc -oeuc -w";
$WAKATI = $KAKASI;

mknmzrcを適宜編集しておく。
重要なのはReplaceのところ。
Replace /var/www/ http://localhost/
というふうにしておく localhostじゃなくて別のホスト名などをいれると、インターネット越しに他のPCからもこのPCのディレクトリのPDFファイルが見れて便利だが、publicに公開すると著作権違反になってしまうので、そういう使いかたは禁止。

/usr/share/namazu/filter/pdf.plを編集する

@pdfconvopts = ('-q', '-raw') <----- defaultの-enc EUC-JPがあるとpdftotextが止まって正常にindexをつくらない

xpdfとpdftotextのコンパイル
xpdf 3.02のソースファイルをダウンロード
http://www.foolabs.com/xpdf/download.html

pdftotextのソースコードはあらかじめhackしておく。

あらかじめ
apt-get install freetype2
apt-get install openMotif-devel <----これが結構重要
をしておく

xpdfのディレクトリで
./configure --with-freetype2-includes=/usr/include/freetype2 <---- このオプション重要

これでようやくmakeが通るようになる
make
su
make install

mknmzでインデックスつくる
/usr/share/namazu/index/PDF に移動して、mknmz -a /var/www/html/pdf などとする。

search.htmlを編集
/var/www/html/search.html を編集して検索対象に上記の/usr/share/namazu/index/PDFが含まれるようにする。

できあがり

にほんブログ村 科学ブログ 生物学・生物科学へ
ブログ村でVine5.0関連のブログを探してみる





お気に入りの記事を「いいね!」で応援しよう

最終更新日  2010.01.22 11:12:23 コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

© Rakuten Group, Inc.
Design a Mobile Website
スマートフォン版を閲覧 | PC版を閲覧
Share by: