Scansione: differenze tra le versioni

Vai alla navigazione Vai alla ricerca
Aggiunta bozza sezione OCR
m (categorie)
(Aggiunta bozza sezione OCR)
Riga 35: Riga 35:


dalla cartella dove si è scompattato il software.
dalla cartella dove si è scompattato il software.
== OCR ==
Il passo finale della digitalizzazione è il processo di riconoscimento dei caratteri. Migliore è la qualità della scansione e migliore è stato il loro post-processing e migliore è l'accuratezza che ci si può aspettare da un'operazione OCR.
=== Tesseract OCR ===
È il software più completo, può fare OCR in molte lingue diverse e sono disponibili molti pacchetti di ''trained data'' per varie lingue.
=== OCRopus ===
È un progetto open inizialmente basato su Tesseract e ora dotato di un proprio motore OCR; è in forte crescita.
=== Pypdfocr ===
È uno script in Python che combina l'azione di GhostScript, ImageMagick, Poppler e Tesseract OCR. Prende in input un PDF e scrive in output un PDF identico ma con un layer OCR. L'utilizzo è estremamente semplice e nella maggior parte dei casi basta specificare la lingua e dare:
<code>$ pypdfocr -l eng  mybeautifulbook.pdf</code>
Per rendere più veloce l'operazione, nel caso in cui il documento abbia già subito un processo di post-produzione come quello indicato nella sezione precedente, allora si può dare:
<code>$ pypdfocr -l eng --skip-preprocess mybeautifulbook.pdf </code>
Il processo è estremamente pesante dal punto di vista computazionale: nel caso in cui si stia lavorando con un PC portatile, potrebbe essere necessaria l'alimentazione da rete elettrica. Potrebbe essere inoltre utile monitorare periodicamente la temperatura della CPU e posizionare la macchina in modo che il sistema di raffreddamento massimizzi il flusso d'aria.


==Condivisione==
==Condivisione==
115

contributi

Menu di navigazione