野次馬エンジニア道

野次馬な気持ちでプログラミングをあれこれと綴ります

Python

TesseractOCRのPythonバインディングでPDFからデータ抽出

PythonでPDFをOCRをかけてテキストデータに変換してみる。 PDFから画像に変換 PDFMinerが便利そう。早速 pip install pdfminer 画像の抜き出しは、 -O 画像の出力先 -p ページ数 (指定しない場合は全ページ) pdf2txt.py -O image/ -p 4 source.pdf Tesseract…