Convertire immagini e PDF in testo

OCR
Howto

Uno dei problemi che affliggono con maggior frequenza coloro che si trovano a lavorare con documenti PDF è l’impossibilità di copiare i testi contenuti in quei file.
E non perché vi sia qualche forma di protezione ma perché, più semplicemente, il documento PDF contiene una o più immagini.

Come fare per convertire immagini in testo modificabile in Word o in qualunque altro editor di testi?

Il PDF è il formato principe per lo condividere contenuti con altre persone. Esportando i propri documenti in PDF, infatti, si sarà certi che il loro contenuto venga visualizzato, da parte di terzi, allo stesso modo in cui viene mostrato sul proprio computer.
Nell’articolo Come identificare ed integrare font di carattere in un documento abbiamo visto che fonti di carattere assenti (e utilizzate invece dall’autore del documento) sono le principali responsabili dello scorretto layout insieme con l’utilizzo di software – word processor – e formati poco interoperabili.
Il nostro suggerimento, quindi, è quello – ove possibile – di creare sempre file PDF/A, specifica che rende il documento PDF completamente “autonomo” e indipendente dalla configurazione software utilizzata (vedere Come creare file PDF con Windows 10 e senza.

Il PDF è il formato più utilizzato per salvare e distribuire il contenuto delle pagine acquisite mediante uno scanner. Di solito, però, quelle stesse pagine non sono quasi mai sottoposte a OCR e risulta quindi impossibile copiare il testo contenuto nel documento PDF.

Convertire immagini in testo con PDF-XChange Viewer

Per convertire immagini in testo quindi trasformare in testo copiabile altrove il contenuto delle immagini che compongono il documento PDF (ad esempio una serie di pagine acquisite da scanner), è possibile utilizzare un OCR (acronimo di optical character recognition).

Il consiglio migliore è quello di servirsi dell’ottimo PDF-XChange Viewer, applicazione che contiene anche un modulo OCR capace di convertire immagini in testo e creare una nuova versione del documento PDF contenente immagini con il testo selezionabile, copiabile altrove e ricercabile.

Come spiegato nell’articolo Convertire un PDF in un PDF ricercabile con l’OCR, la procedura da seguire per convertire immagini in testo a partire dal contenuto del file PDF è molto semplice:

1) Scaricare e installare PDF-XChange Viewer
2) Installare il pacchetto per il riconoscimento OCR della lingua italiana prelevando questo file quindi cliccando due volte sull’eseguibile in esso contenuto.
3) Avviare PDF-XChange Viewer e aprire il documento PDF d’interesse.
4) Cliccare sul menu Documento, Scansione testo pagine con OCR e impostare quanto visualizzato in finestra così come segue:

Convertire immagini e PDF in testo
5) A riconoscimento OCR ultimato, selezionare File, Salva con nome e memorizzare il file PDF con un altro nome.
6) Aprire il documento PDF con PDF-XChange Viewer, con Adobe Reader o con qualunque lettore di file PDF. Selezionando le parti di testo che interessano, si potrà copiarle (CTRL+C) e incollarle altrove (CTRL+V).

Come convertire immagini in testo con CopyFish

Uno strumento da non sottovalutare è CopyFish: si presenta come un’estensione per Google Chrome e permette di convertire immagini in testo prendendo in esame quanto visualizzato nella scheda correntemente aperta nel browser.

CopyFish si comporta bene anche con i layout a più colonne riuscendo a estrarre di seguito tutto il testo facente parte della medesima colonna.
Il documento PDF dal quale si desiderano estrarre dei testi può essere aperto con Google Chrome quindi lasciato esaminare da CopyFish, cliccando sull’icona mostrata accanto alla barra degli URL del browser (maggiori informazioni sulla gestione dei PDF con Chrome sono disponibili nell’articolo Aprire PDF online senza installare nulla).

Convertire immagini e PDF in testo

Convertire le immagini in testo con Office Online, Google Keep e OneNote

Office Online, Google Keep e OneNote integrano uno strumento OCR che permette di riconoscere il testo presente nelle immagini e nelle immagini contenute nei documenti PDF.
La conversione, in questo caso, avviene online – sui server di Microsoft e Google – ma il risultato a cui si perviene è analogo.

Abbiamo presentato le tre applicazioni nell’articolo OCR da PDF, come estrarre il testo in poche mosse, che vi invitiamo a consultare.

Convertire in testo modificabile un documento cartaceo

Per acquisire direttamente un documento cartaceo come PDF e sottoporlo a OCR, non è indispensabile possedere uno scanner e un software “ad hoc”.

Utilizzando la fotocamera del dispositivo mobile è possibile acquisire istantaneamente le pagine e sottoporle a scansione OCR.

Applicazioni che consentono di gestire quest’esigenza ve ne sono molteplici. Nell’articolo OCR online, scansione immediata di documenti con Android abbiamo approfondito l’utilizzo di Microsoft Office Lens.

Una validissima alternativa, però, è Text Fairy, presentato a suo tempo nell’articolo Testo da immagine con Android, ecco come fare.

Davvero pratica da utilizzare e, soprattutto, molto efficace, sempre sul versante Android, è Tiny Scanner.
Tiny Scanner può creare PDF multipagina acquisendo, una dopo l’altra, le immagini mediante la fotocamera digitale del dispositivo mobile.

Le scansioni acquisite possono essere organizzate in cartelle o condivise via email, attraverso Dropbox, Evernote, Google Drive e Box oppure salvate direttamente su computer via WiFi.
Tiny Scanner non integra un OCR ma, grazie alla possibilità di creare PDF multipagina, può essere usato per creare velocemente documenti ottimizzati da passare agli strumenti citati in precedenza.
Per effettuare la conversione di un intero documento PDF (insieme con l’intero layout, le immagini eventualmente presenti, gli stili utilizzati e così via…), suggeriamo di seguire le indicazioni riportate nell’articolo Convertire PDF in Word: ecco gli strumenti da usare.