20009 Letture

Rendere ricercabile un PDF con WatchOCR. Come elaborare decine di documenti simultaneamente

Un documento acquisito con lo scanner non può essere oggetto di ricerche all'interno del suo contenuto. Lo scanner, infatti, è una periferica in grado di acquisire foto e documenti sotto forma di immagini digitali. I testi, a meno che il driver dello scanner o gli altri componenti della suite di acquisizione delle immagini non lo permettano, non vengono sottoposti al riconoscimento ottico (OCR).
In gran parte delle situazioni, quindi, quando si acquisce un documento con lo scanner si ottiene un'immagine oppure un documento PDF contenente le immagini scannerizzate.
Se si prova ad effettuare una ricerca specificando una o più parole contenute nell'immagine scannerizzata, Adobe Reader, Foxit Reader o qualunque altro software si utilizzi per aprire i documenti in formato PDF, non indicheranno la presenza di alcuna occorrenza.
Si supponga di memorizzare il file PDF contenente le immagini dei documenti scannerizzati in una delle cartelle "monitorate" dalla funzionalità di ricerca integrata in Windows. Digitando uno o più termini presenti nel file PDF all'interno della casella Cerca programmi e file di Windows, anche in questo caso si otterrà il messaggio Nessun elemento corrisponde ai critieri di ricerca.

Windows 7 integra una valida funzionalità per la ricerca di file e cartelle che non si limita ad analizzare esclusivamente il nome degli elementi memorizzati sul disco fisso ma che tiene traccia del contenuto dei file conservati nelle cartelle specificate.
Per sapere tutto sulla funzionalità di ricerca di Windows 7 vi suggeriamo di consultare l'articolo Cercare file e cartelle: funzionalità di Windows e software alternativi.
Qualora non riusciste ad effettuare ricerche per ciò che riguarda il contenuto dei file in formato PDF, vi suggeriamo di fare riferimento al medesimo articolo. Il problema è infatti molto comune, soprattutto sui sistemi a 64 bit ma è facilmente risolvibile.

C'è un interessantissimo software, WatchOCR, che consente di rendere un PDF ricercabile.
Cosa intendiamo con quest'espressione? Dopo il "trattamento" con WatchOCR, sarà possibile effettuare ricerche in qualunque PDF acquisito da scanner come immagine ed ottenere un documento, tra l'altro, di dimensioni più contenute.
Rendendo un PDF ricercabile, non sarà possibile effettuare ricerche rapide all'interno del suo contenuto utilizzando programmi come Adobe Reader o Foxit Reader, ma anche Windows diverrà automaticamente in grado di indicizzarne il contenuto.

La maggior parte dei software che permettono di rendere ricercabile un PDF sono a pagamento o vengono distribuiti con un set di funzionalità limitato. WatchOCR, viceversa, può essere installato ed utilizzato (viene distribuito sotto licenza GNU GPL) senza alcuna restrizione e senza porre mano al portafogli (gli autori chiedono solamente di effettuare un versamento, qualora lo si volesse, per contribuire allo sviluppo dell'applicazione).


WatchOCR viene distribuito sotto forma di file ISO, prelevabile gratuitamente cliccando qui. Il file ISO può essere masterizzato su supporto CD, inserito in una chiavetta USB avviabile oppure, ancora, avviato da una macchina virtuale (ad esempio con VirtualBox).
Basato sulla distribuzione Linux Knoppix, WatchOCR include software quali ExactImage e Cuneiform per elaborare automaticamente le immagini contenute nei file PDF e per sottoporle al riconoscimento ottico dei caratteri (OCR).
L'utente non dovrà cimentarsi né con la configurazione di ExactImage né con quella di Cuneiform: WatchOCR è immediatamente operativo.
WatchOCR si propone anzi come una sorta di "piattaforma server" che provvede ad elaborare e rendere ricercabili i PDF non appena questi vengono ad essa sottoposti.
La piattaforma WatchOCR va avviata utilizzando il file ISO, a partire da un CD ROM, una chiavetta USB di boot oppure una macchina virtuale. Si tratta di una "distribuzione live" perché non necessita di scrivere alcunché sul disco fisso.

Invio di singoli file PDF od elaborazione automatica di più documenti

Per avviare WatchOCR, basta riavviare il personal computer lasciando inserito nel lettore il CD precedentemente masterizzato oppure connessa alla porta USB la chiavetta resa avviabile (ad esempio utilizzando YUMI; vedere questi nostri articoli).
Suggeriamo comunque di utilizzare WatchOCR (vedere il riquadro successivo) da una macchina virtuale Linux creata con VirtualBox: è secondo noi il modo migliore e più pratico per utilizzare comodamente la piattaforma per rendere ricercabili i PDF.

Dopo aver avviato WatchOCR, sarà possibile inviare un singolo documento PDF da rendere ricercabile oppure caricare tutti quelli che si desidera vengano elaborati nella directory di rete \\WatchOCRServer\WatchOCR\scanin.

Eseguire WatchOCR da una macchina virtuale Linux con VirtualBox

Uno dei modi migliori per utilizzare WatchOCR, secondo noi, è avviare la piattaforma per trasformare un PDF in un documento ricercabile da una macchina virtuale Linux. Allo scopo è possibile utilizzare un software quale VirtualBox.
Si avrà così a disposizione un computer virtuale che, ogni volta avviato, attiverà le funzionalità di creazione dei PDF ricercabili all'interno dell'intera rete locale: ogni client della LAN, infatti, potrà richiedere la conversione di qualunque documento PDF.


Dopo aver installato VirtualBox, suggeriamo di creare una nuova macchina virtuale WatchOCR scegliendo Linux dal menù a tendina Tipo e Linux 2.6 dal menù Versione:

Alla macchina virtuale suggeriamo di associare 512 MB di RAM mentre è più che sufficiente un hard disk virtuale da 8 GB.
Una volta creata la nuova macchina virtuale, si dovrà selezionare dalla finestra principale di VirtualBox, cliccare sul pulsante Impostazioni nella barra degli strumenti, fare clic su Archiviazione, sul piccolo pulsante evidenziato in figura, quindi specificare la ISO di WatchOCR:

Nella sezione Rete, bisognerà scegliere Connessa a quindi Scheda con bridge in modo tale che la macchina virtuale VirtualBox appaia, "agli occhi" degli altri client connessi in rete locale, come un computer "fisico".
A questo punto si potrà avviare la macchina virtuale di WatchOCR.



Dopo la fase di boot della distribuzione Linux, ci si troverà dinanzi alla seguente schermata:

La pagina di configurazione visualizzata da parte del browser Iceweasel consente di impostare il funzionamento di WatchOCR ed è accessibile da qualunque client connesso in rete locale (basta digitare l'URL http://watchocrserver nella barra degli indirizzi di qualunque browser web).


  1. Avatar
    drman
    26/12/2012 19:47:28
    Segnalo un errore (manca l'avverbio dopo la negazione):
    Citazione: Rendendo un PDF ricercabile, non /*solo*/ sarà possibile effettuare ricerche rapide all'interno del suo contenuto utilizzando programmi come Adobe Reader o Foxit Reader, ma anche Windows
    Per quanto riguarda il contenuto dell'articolo, per piccole operazioni, accettando quindi qualche limitazione, ci si può servire degli ormai quasi universali servizi di google, in particolare drive.
Rendere ricercabile un PDF con WatchOCR. Come elaborare decine di documenti simultaneamente - IlSoftware.it