questo programma converte un file PDF in uno TXT, estraendo il testo contenuto nelle pagine:
- avviare il programma
- vedi sezione utilizzo Python con virtualenv
- trascinare nella finestra del terminale il file PDF da convertire
- il file TXT viene scritto nella posizione dove è salvato il file PDF trascinato
il programma richiede Tesseract installato sul PC
- installa versione nella cartella
tesseract\WIN INSTALLER
, ad esempio nel percorsotesseract\WIN EXE
- aggiungi
tesseract\WIN EXE
alla variabile d'ambientePath
- riavvia PC
- packaging==23.2
- pdf2image==1.16.3
- Pillow==10.1.0
- pytesseract==0.3.10
env\Scripts\activate
python main.py
deactivate
in alternativa lancia il file
avvia_OCR.bat
source venv/bin/activate
python main.py
deactivate
pyinstaller --hidden-import=pdf2image --add-binary "D:\Autarchia\OCR\tesseract\WIN EXE;." main.py