【備忘録】OCRデータ付きPDFについて
ScanSnapで自炊作業してます。ScanSnapにはOCR機能が備わっていますが、あまり精度が良くなかったので、Acrobatを購入して使ってました。ただ、OCRのためだけに使うには高額のため、退職とともにサブスクを停止しました。 現在は、ScanSnapでOCRデータ付きPDFを作成したものをそのまま使っており、最近のものは、日本語データの精度もまずまずです。ただ、どうしても気になるのがファイルサイズ。200Pの雑誌を自炊すると300MBほどになります。Macのプレビューアプリの「書き出し」機能で、最適化PDFに変換することで100MBまで圧縮できますが、なぜかOCRデータが欠落してしまいます。 そこで、Linuxを活用してOCDRデータが付いた状態で圧縮(最適化)して保存することにしました。
$ sudo apt install -y ocrmypdf $ ocrmypdf --optimize 3 --skip-text 変換前.pdf 変換後.pdf
ocrmypdfはOCRデータを作成できます。ただ、無駄なスペース文字が入るなど精度は良くないです。
$ sudo apt install -y ocrmypdf tesseract-ocr tesseract-ocr-jpn $ ocrmypdf --optimize 3 変換前.pdf 変換後.pdf --force-ocr --language jpn