Scansione: differenze tra le versioni

Vai alla navigazione Vai alla ricerca
trablosciuting in tesseract
(Aggiunta fase di scansione)
(trablosciuting in tesseract)
(5 versioni intermedie di 2 utenti non mostrate)
Riga 23: Riga 23:
<code>$ pdftk multipage_document.pdf burst</code>
<code>$ pdftk multipage_document.pdf burst</code>


questo genera tanti file quanti sono le pagine nominati come pg_001.pdf, pg_002.pdf, ecc. Questi possono essere convertiti in png usando:
questo genera tanti file quanti sono le pagine nominati come pg_001.pdf, pg_002.pdf, ecc. Questi possono essere convertiti in png usando su zsh:


<code>$ for i in *.pdf; convert -density 300 $i "${i%.pdf}.png";</code>
<code>$ for i in *.pdf; convert -density 300 $i "${i%.pdf}.png";</code>
altrimenti su bash:
<code>$ for i in *.pdf; do convert -density 300 $i "${i%.pdf}.png"; done </code>


Così si ottengono le immagini da dare in pasto a scantailor.  
Così si ottengono le immagini da dare in pasto a scantailor.  
L'output di scantailor sono una serie di immagini tiff che possono essere compattate in un unico .pdf generando prima una .tiff multipagina:
L'output di scantailor sono una serie di immagini tiff che possono essere compattate in un unico .pdf generando prima una .tiff multipagina:


<code>$ tiffcp out_di_scantailor/*.tiff multipage.tiff</code>
<code>$ tiffcp out_di_scantailor/*.tif multipage.tif</code>
 
Probabilmente vorrai dare un'aggiustatina alla dimensione di ogni immagine, in particolare se hai scelto di lavorare su un progetto a risoluzione molto alta. Se vuoi riscalare del 60% le tue immagini puoi dare un comando del genere:
 
<code>$ for i in *.tif; convert -resize 60% $i "${i%.tif}_2.tif";</code>
 
che genererà in output le immagini ridimensionate mettendoci un _2 alla fine.
   
   
e poi convertendola in un pdf:
Puoi infine procedere a creare il tuo pdf:
   
   
<code>$ tiff2pdf megatiff.tiff megapdf.pdf</code>
<code>$ tiff2pdf multipage.tiff megapdf.pdf</code>
 
====Troubleshooting====
Il ciclo for fallisce con l'errore:
 
<code> convert: attempt to perform an operation not allowed by the security policy `PDF' </code>
 
È necessario modificare le regole di policy di Imagemagick 7 nel file <code>/etc/ImageMagick-7/policy.xml</code>, <b>commentando</b> la seguente riga:
 
<code> <policy domain="coder" rights="none" pattern="{PS,PS2,PS3,EPS,PDF,XPS}" /> </code>


===Briss===
===Briss===
Riga 42: Riga 62:


dalla cartella dove si è scompattato il software.
dalla cartella dove si è scompattato il software.
== METADATI ==
è tutto una bozza qui quando ho un attimo di tempo lo metto apposto
pdf -> usa exiftool
djvu -> usa djvused (per djvu non c'è uno standard sui tag da utilizzare)
tips per anonimizzare il tuo file:
usa MAT (Metadata Anonymizer Tool)
oppure per un PDF:
<code>$ exiftool -overwrite_original -t -Creator="" -CreateDate="" -CreatorTool="" -Producer="" -DocumentID="" -InstanceID="" -SigningAuthority="" topsecretsegretissimofile.pdf </code>
mentre per un DJVU:
<code>$ djvused -v topsecretsegretissimofile.djvu -e "remove-meta; save" </code>


== OCR ==
== OCR ==
Riga 62: Riga 101:


Il processo è estremamente pesante dal punto di vista computazionale: nel caso in cui si stia lavorando con un PC portatile, potrebbe essere necessaria l'alimentazione da rete elettrica. Potrebbe essere inoltre utile monitorare periodicamente la temperatura della CPU e posizionare la macchina in modo che il sistema di raffreddamento massimizzi il flusso d'aria.
Il processo è estremamente pesante dal punto di vista computazionale: nel caso in cui si stia lavorando con un PC portatile, potrebbe essere necessaria l'alimentazione da rete elettrica. Potrebbe essere inoltre utile monitorare periodicamente la temperatura della CPU e posizionare la macchina in modo che il sistema di raffreddamento massimizzi il flusso d'aria.
=== Pagine Doppie ===
Capita di trovare documenti .pdf che siano scansioni di buona qualità oppure file vettoriali, ma che siano a doppia pagina. Nel caso in cui si tratti di una scansione, è possibile procedere con scantailor, trattanto ogni pagina per l'immagine che è. Nel caso in cui si abbia a che fare con file vettoriali, si vuole normalmente conservare l'informazione vettoriale. Si può procedere con pdfcrop:
<code>$ pdfcrop --bbox "<left> <bottom> <right> <top>" input.pdf output.pdf</code>


==Condivisione==
==Condivisione==
115

contributi

Menu di navigazione