http://www.foolabs.com/xpdf/download.html より xpdf-3.04.tar.gz: the source code (825519 bytes) xpdfbin-linux-3.04.tar.gz (includes 32-bit and 64-bit binaries) (25295651 bytes) の両方をとってくる。 下は展開するとxpdfが利用可能になる このパッケージにもpdftotextが入っているがpdftotextに関しては上のソースコードからビルドする ビルドする際にソースコードを編集して
こんなふうにコメントアウトする
// check for copy permission // if (!doc->okToCopy()) { // error(errNotAllowed, -1, // "Copying of text from this document is not allowed."); // exitCode = 3; // goto err2; // }
これをしておかないとpdfからテキストが抽出できないのでインデックスが作成できない
./configureを行った上で make pdftotext make install cp ./pdftotext /usr/bin/ など適宜suになりながら作業すること