Scansione OCR

questo programma converte un file PDF in uno TXT, estraendo il testo contenuto nelle pagine:

avviare il programma
- vedi sezione utilizzo Python con virtualenv
trascinare nella finestra del terminale il file PDF da convertire
il file TXT viene scritto nella posizione dove è salvato il file PDF trascinato

Tesseract

il programma richiede Tesseract installato sul PC

installa versione nella cartella tesseract\WIN INSTALLER, ad esempio nel percorso tesseract\WIN EXE
aggiungi tesseract\WIN EXE alla variabile d'ambiente Path
riavvia PC

Dipendenze Python

packaging==23.2
pdf2image==1.16.3
Pillow==10.1.0
pytesseract==0.3.10

Utilizzo Python con virtualenv

Ambiente Windows

env\Scripts\activate
python main.py
deactivate

in alternativa lancia il file avvia_OCR.bat

Ambiente Linux/Mac

source venv/bin/activate
python main.py
deactivate

Compilazione eseguibile Windows con pyinstaller

pyinstaller --hidden-import=pdf2image --add-binary "D:\Autarchia\OCR\tesseract\WIN EXE;." main.py

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
app		app
config		config
input		input
tesseract		tesseract
.gitignore		.gitignore
avvia_OCR.bat		avvia_OCR.bat
main.py		main.py
main.spec		main.spec
readme.md		readme.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Scansione OCR

Tesseract

Dipendenze Python

Utilizzo Python con virtualenv

Ambiente Windows

Ambiente Linux/Mac

Compilazione eseguibile Windows con pyinstaller

About

Uh oh!

Releases

Packages

Uh oh!

Languages

fcattai/OCR

Folders and files

Latest commit

History

Repository files navigation

Scansione OCR

Tesseract

Dipendenze Python

Utilizzo Python con virtualenv

Ambiente Windows

Ambiente Linux/Mac

Compilazione eseguibile Windows con pyinstaller

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages