pdf4search.sh - shell script that converts image PDF to searchable PDF using Google Cloud Vision OCR
このbashスクリプトは、画像化されたPDFを、Google Cloud Vision OCRを用いてテキスト検索可能なPDFに変換します。
https://remoteroom.jp/diary/2017-10-12/ に書きましたのでこちらを参照してください。
なお、次の2つのプログラムを使用しますので、別途準備が必要です。
- gcv2hocr https://github.com/dinosauria123/gcv2hocr
- hocr-tools https://github.com/tmbdev/hocr-tools
大久保 正彦 (Masahiko OHKUBO) <[email protected]> <https://twitter.com/mah_jp>
This software is copyright (c) 2017 by Masahiko OHKUBO.
This is free software; you can redistribute it and/or modify it under the same terms as the Perl 5 programming language system itself.