Scansione: differenze tra le versioni

Scansione (visualizza wikitesto)

Versione delle 08:40, 7 mag 2017

1 526 byte aggiunti , 7 mag 2017

Aggiunta bozza sezione OCR

Pol

Burocrati, Amministratori, wegan

115

contributi

@@ Riga 35: / Riga 35: @@
 dalla cartella dove si è scompattato il software.
+== OCR ==
+Il passo finale della digitalizzazione è il processo di riconoscimento dei caratteri. Migliore è la qualità della scansione e migliore è stato il loro post-processing e migliore è l'accuratezza che ci si può aspettare da un'operazione OCR.
+=== Tesseract OCR ===
+È il software più completo, può fare OCR in molte lingue diverse e sono disponibili molti pacchetti di ''trained data'' per varie lingue.
+=== OCRopus ===
+È un progetto open inizialmente basato su Tesseract e ora dotato di un proprio motore OCR; è in forte crescita.
+=== Pypdfocr ===
+È uno script in Python che combina l'azione di GhostScript, ImageMagick, Poppler e Tesseract OCR. Prende in input un PDF e scrive in output un PDF identico ma con un layer OCR. L'utilizzo è estremamente semplice e nella maggior parte dei casi basta specificare la lingua e dare:
+<code>$ pypdfocr -l eng  mybeautifulbook.pdf</code>
+Per rendere più veloce l'operazione, nel caso in cui il documento abbia già subito un processo di post-produzione come quello indicato nella sezione precedente, allora si può dare:
+<code>$ pypdfocr -l eng --skip-preprocess mybeautifulbook.pdf </code>
+Il processo è estremamente pesante dal punto di vista computazionale: nel caso in cui si stia lavorando con un PC portatile, potrebbe essere necessaria l'alimentazione da rete elettrica. Potrebbe essere inoltre utile monitorare periodicamente la temperatura della CPU e posizionare la macchina in modo che il sistema di raffreddamento massimizzi il flusso d'aria.
 ==Condivisione==

Scansione: differenze tra le versioni

Scansione (visualizza wikitesto)

Versione delle 08:40, 7 mag 2017

Menu di navigazione

Ricerca