Burocrati, Amministratori, wegan
115
contributi
Pol (discussione | contributi) (Aggiunta fase di scansione) |
Pol (discussione | contributi) (trablosciuting in tesseract) |
||
(5 versioni intermedie di 2 utenti non mostrate) | |||
Riga 23: | Riga 23: | ||
<code>$ pdftk multipage_document.pdf burst</code> | <code>$ pdftk multipage_document.pdf burst</code> | ||
questo genera tanti file quanti sono le pagine nominati come pg_001.pdf, pg_002.pdf, ecc. Questi possono essere convertiti in png usando: | questo genera tanti file quanti sono le pagine nominati come pg_001.pdf, pg_002.pdf, ecc. Questi possono essere convertiti in png usando su zsh: | ||
<code>$ for i in *.pdf; convert -density 300 $i "${i%.pdf}.png";</code> | <code>$ for i in *.pdf; convert -density 300 $i "${i%.pdf}.png";</code> | ||
altrimenti su bash: | |||
<code>$ for i in *.pdf; do convert -density 300 $i "${i%.pdf}.png"; done </code> | |||
Così si ottengono le immagini da dare in pasto a scantailor. | Così si ottengono le immagini da dare in pasto a scantailor. | ||
L'output di scantailor sono una serie di immagini tiff che possono essere compattate in un unico .pdf generando prima una .tiff multipagina: | L'output di scantailor sono una serie di immagini tiff che possono essere compattate in un unico .pdf generando prima una .tiff multipagina: | ||
<code>$ tiffcp out_di_scantailor/*. | <code>$ tiffcp out_di_scantailor/*.tif multipage.tif</code> | ||
Probabilmente vorrai dare un'aggiustatina alla dimensione di ogni immagine, in particolare se hai scelto di lavorare su un progetto a risoluzione molto alta. Se vuoi riscalare del 60% le tue immagini puoi dare un comando del genere: | |||
<code>$ for i in *.tif; convert -resize 60% $i "${i%.tif}_2.tif";</code> | |||
che genererà in output le immagini ridimensionate mettendoci un _2 alla fine. | |||
Puoi infine procedere a creare il tuo pdf: | |||
<code>$ tiff2pdf | <code>$ tiff2pdf multipage.tiff megapdf.pdf</code> | ||
====Troubleshooting==== | |||
Il ciclo for fallisce con l'errore: | |||
<code> convert: attempt to perform an operation not allowed by the security policy `PDF' </code> | |||
È necessario modificare le regole di policy di Imagemagick 7 nel file <code>/etc/ImageMagick-7/policy.xml</code>, <b>commentando</b> la seguente riga: | |||
<code> <policy domain="coder" rights="none" pattern="{PS,PS2,PS3,EPS,PDF,XPS}" /> </code> | |||
===Briss=== | ===Briss=== | ||
Riga 42: | Riga 62: | ||
dalla cartella dove si è scompattato il software. | dalla cartella dove si è scompattato il software. | ||
== METADATI == | |||
è tutto una bozza qui quando ho un attimo di tempo lo metto apposto | |||
pdf -> usa exiftool | |||
djvu -> usa djvused (per djvu non c'è uno standard sui tag da utilizzare) | |||
tips per anonimizzare il tuo file: | |||
usa MAT (Metadata Anonymizer Tool) | |||
oppure per un PDF: | |||
<code>$ exiftool -overwrite_original -t -Creator="" -CreateDate="" -CreatorTool="" -Producer="" -DocumentID="" -InstanceID="" -SigningAuthority="" topsecretsegretissimofile.pdf </code> | |||
mentre per un DJVU: | |||
<code>$ djvused -v topsecretsegretissimofile.djvu -e "remove-meta; save" </code> | |||
== OCR == | == OCR == | ||
Riga 62: | Riga 101: | ||
Il processo è estremamente pesante dal punto di vista computazionale: nel caso in cui si stia lavorando con un PC portatile, potrebbe essere necessaria l'alimentazione da rete elettrica. Potrebbe essere inoltre utile monitorare periodicamente la temperatura della CPU e posizionare la macchina in modo che il sistema di raffreddamento massimizzi il flusso d'aria. | Il processo è estremamente pesante dal punto di vista computazionale: nel caso in cui si stia lavorando con un PC portatile, potrebbe essere necessaria l'alimentazione da rete elettrica. Potrebbe essere inoltre utile monitorare periodicamente la temperatura della CPU e posizionare la macchina in modo che il sistema di raffreddamento massimizzi il flusso d'aria. | ||
=== Pagine Doppie === | |||
Capita di trovare documenti .pdf che siano scansioni di buona qualità oppure file vettoriali, ma che siano a doppia pagina. Nel caso in cui si tratti di una scansione, è possibile procedere con scantailor, trattanto ogni pagina per l'immagine che è. Nel caso in cui si abbia a che fare con file vettoriali, si vuole normalmente conservare l'informazione vettoriale. Si può procedere con pdfcrop: | |||
<code>$ pdfcrop --bbox "<left> <bottom> <right> <top>" input.pdf output.pdf</code> | |||
==Condivisione== | ==Condivisione== |