2013年4月19日金曜日

段組 pdf から txt を取り出す方法:
pdftotext -enc UTF-8 -raw -nopgbrk sd201201.pdf - | tr -d '\n' | tr -d ' ' > sd201201.txt

一部おかしいところもあるが、概ね問題ない。無いよりはまし。

0 件のコメント:

コメントを投稿