piyotaの【ちぇブラで行こう】

PR

カレンダー

コメント新着

piyota0 @ Re:猛暑の常滑市民文化会館前(チンタ1枚)(07/27) 重要備忘録 <small> <a href="https://l…
piyota0 @ Re:ロワジールホテル豊橋(06/14) レインジャケットがほしい <small> <a h…
piyota0 @ Re:ヴィアインプライム札幌大通(札幌)(06/11) 【琵琶湖コアユ釣り】爆釣したマル秘エサ…
piyota0@ Re:2024年の目標というか予定というか(01/07) 始発で河和に電車釣行の時のシミュレーシ…
piyota0 @ Re[1]:2024年の目標というか予定というか(01/07) 衣浦トンネル東詰 碧南緑地の南角でシー…

プロフィール

piyota0

piyota0

キーワードサーチ

▼キーワード検索

2014.06.18
XML
自分用備忘録



システム要件 VineLinux 6.2 (ia32)

namazuはデフォルトで入ってくれないのでこんなことをする
#apt-get install namazu namazu-cgi namazu-devel tknamazu

システムにはpdftotextが必要

http://www.foolabs.com/xpdf/download.html
より
xpdf-3.04.tar.gz: the source code (825519 bytes)
xpdfbin-linux-3.04.tar.gz (includes 32-bit and 64-bit binaries) (25295651 bytes)
の両方をとってくる。
下は展開するとxpdfが利用可能になる
このパッケージにもpdftotextが入っているがpdftotextに関しては上のソースコードからビルドする
ビルドする際にソースコードを編集して

こんなふうにコメントアウトする

// check for copy permission
// if (!doc->okToCopy()) {
// error(errNotAllowed, -1,
// "Copying of text from this document is not allowed.");
// exitCode = 3;
// goto err2;
// }

これをしておかないとpdfからテキストが抽出できないのでインデックスが作成できない

./configureを行った上で
make pdftotext
make install
cp ./pdftotext /usr/bin/
など適宜suになりながら作業すること

mknmzrc設定

#vi /etc/namazu/mknmzrc

こんな感じにコメントアウトしてPDF検索対象を有効化
$ALLOW_FILE = ".*\\.(?:$HTML_SUFFIX)|.*\\.txt" . # HTML, plain text
# "|.*\\.gz|.*\\.Z|.*\\.bz2" . # Compressed files
"|.*\\.pdf" . # PDF
# "|.*\\.tex" . # TeX
# "|.*\\.doc|.*\\.xls" . # Word, Excel
# "|.*\\.j[sab]w" . # Ichitaro 4, 5, 6
"|\\d+|[-\\w]+\\.[1-9n]"; # Mail/News, man

filter/pdf.pl設定
vi /usr/share/namazu/filter/pdf.pl
この部分がわからなかったのでかなり難儀した。LANG設定が変わったせいと思われる

if (util::islang("ja")) {
if ($pdfconvver >= 1.00) {
@pdfconvopts = ('-q', '-raw', '-enc', 'UTF-8' );
} else {
@pdfconvopts = ('-q', '-raw', '-eucjp');
}


if (util::islang("ja")) {
if ($pdfinfover >= 2.02) {
@pdfinfoopts = ('-enc', 'UTF-8' );
} else {
@pdfinfoopts = ();
}

これをやっておかないとpdftotextが働いてくれない模様

だいたいこれで動くようになった(はず)

書き漏らしがあったら後日適宜追加。
ああつかれた。

にほんブログ村 科学ブログ 生物学・生物科学へ
ブログ村で蛋白質立体構造関連のブログを探してみる





お気に入りの記事を「いいね!」で応援しよう

最終更新日  2014.08.12 15:29:25
コメントを書く


【毎日開催】
15記事にいいね!で1ポイント
10秒滞在
いいね! -- / --
おめでとうございます!
ミッションを達成しました。
※「ポイントを獲得する」ボタンを押すと広告が表示されます。
x

© Rakuten Group, Inc.
X
Design a Mobile Website
スマートフォン版を閲覧 | PC版を閲覧
Share by: