Burocrati, Amministratori, wegan
115
contributi
m (categorie) |
Pol (discussione | contributi) (Aggiunta bozza sezione OCR) |
||
Riga 35: | Riga 35: | ||
dalla cartella dove si è scompattato il software. | dalla cartella dove si è scompattato il software. | ||
== OCR == | |||
Il passo finale della digitalizzazione è il processo di riconoscimento dei caratteri. Migliore è la qualità della scansione e migliore è stato il loro post-processing e migliore è l'accuratezza che ci si può aspettare da un'operazione OCR. | |||
=== Tesseract OCR === | |||
È il software più completo, può fare OCR in molte lingue diverse e sono disponibili molti pacchetti di ''trained data'' per varie lingue. | |||
=== OCRopus === | |||
È un progetto open inizialmente basato su Tesseract e ora dotato di un proprio motore OCR; è in forte crescita. | |||
=== Pypdfocr === | |||
È uno script in Python che combina l'azione di GhostScript, ImageMagick, Poppler e Tesseract OCR. Prende in input un PDF e scrive in output un PDF identico ma con un layer OCR. L'utilizzo è estremamente semplice e nella maggior parte dei casi basta specificare la lingua e dare: | |||
<code>$ pypdfocr -l eng mybeautifulbook.pdf</code> | |||
Per rendere più veloce l'operazione, nel caso in cui il documento abbia già subito un processo di post-produzione come quello indicato nella sezione precedente, allora si può dare: | |||
<code>$ pypdfocr -l eng --skip-preprocess mybeautifulbook.pdf </code> | |||
Il processo è estremamente pesante dal punto di vista computazionale: nel caso in cui si stia lavorando con un PC portatile, potrebbe essere necessaria l'alimentazione da rete elettrica. Potrebbe essere inoltre utile monitorare periodicamente la temperatura della CPU e posizionare la macchina in modo che il sistema di raffreddamento massimizzi il flusso d'aria. | |||
==Condivisione== | ==Condivisione== |