つるながの綴り方

ITインフラ系のネタやTips、趣味としているカーライフなどを中心に日頃メモしておきたいことをしたためています。

【備忘録】OCRデータ付きPDFについて

ScanSnapで自炊作業してます。ScanSnapにはOCR機能が備わっていますが、あまり精度が良くなかったので、Acrobatを購入して使ってました。ただ、OCRのためだけに使うには高額のため、退職とともにサブスクを停止しました。 現在は、ScanSnapOCRデータ付きPDFを作成したものをそのまま使っており、最近のものは、日本語データの精度もまずまずです。ただ、どうしても気になるのがファイルサイズ。200Pの雑誌を自炊すると300MBほどになります。Macのプレビューアプリの「書き出し」機能で、最適化PDFに変換することで100MBまで圧縮できますが、なぜかOCRデータが欠落してしまいます。 そこで、Linuxを活用してOCDRデータが付いた状態で圧縮(最適化)して保存することにしました。

$ sudo apt install -y ocrmypdf
$ ocrmypdf --optimize 3 --skip-text 変換前.pdf 変換後.pdf

ocrmypdfはOCRデータを作成できます。ただ、無駄なスペース文字が入るなど精度は良くないです。

$ sudo apt install -y ocrmypdf tesseract-ocr tesseract-ocr-jpn
$ ocrmypdf --optimize 3 変換前.pdf 変換後.pdf --force-ocr  --language jpn