3914 Letture
OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Alcuni suggerimenti per trasformare le scansioni di pagine cartacee in testo modificabile utilizzabile in un qualunque editor.

Quando si lavora con file in formato PDF inviati da collaboratori, dipendenti e colleghi, spesso ci si accorge che le pagine sono formate solamente da immagini di fogli cartacei acquisiti tramite scanner. Il documento PDF viene quindi utilizzato solamente come "contenitore" mentre le informazioni acquisite tramite scanner non sono né selezionabili né copiabili altrove.
La tecnologia OCR (acronimo di Optical Character Recognition) consente di rilevare i caratteri che compongono qualunque documento salvato come immagine e di trasformarli in testo modificabile, talvolta conservando anche il layout del documento originale.

OCR da smartphone con Office Lens, Adobe Scan e Google Keep

Iniziamo col dire che se si volesse trasformare istantaneamente una pagina cartacea in un testo modificabile usando solo il proprio smartphone è possibile usare speciali applicazioni che integrano funzionalità OCR.
La più ridotta in termini di funzionalità ma anche la più rapida da usare è Google Keep.

Selezionando Scatta foto o Scegli immagine in Google Keep si può dapprima acquisire la foto di una pagina stampata; cliccando sul pulsante in alto a destra raffigurante tre puntini in colonna quindi su Recupera testo immagine, il contenuto dell'immagine sarà interamente sottoposto a riconoscimento ottico dei caratteri (OCR).


OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Come spiegato nell'articolo Google Keep: per gestire promemoria e note, con OCR e riconoscimento vocale, tuttavia, il testo riconosciuto da parte del modulo OCR sarà testo semplice, "da Blocco Note", senza la conservazione di una formattazione del documento.

Office Lens e Adobe Scan offrono invece risultati nettamente migliori creando file PDF a partire dalle foto dei documenti acquisite tramite la fotocamera del dispositivo mobile.
La foto viene automaticamente ottimizzata e inserita in un file in formato PDF. Ogni area di testo del documento, una volta sottoposta a OCR, diventa selezionabile e copiabile altrove.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Abbiamo presentato Office Lens e Adobe Scan, rispettivamente, negli articoli Scansione documenti con Android: arriva il nuovo Office Lens e Scansione di un documento dallo smartphone con Adobe Scan.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

OCR online con SmallPDF

Tra le soluzioni che offrono i migliori risultati in assoluto c'è sicuramente SmallPDF: questo strumento offre risultati eccezionali anche con i documenti PDF contraddistinti da un layout complessi con testi (font di carattere non comuni) e molte immagini. Il bello di SmallPDF è che accedendo a questa pagina quindi selezionando PDF to Word il documento viene dapprima analizzato, viene sottoposto a OCR quindi trasformato in formato Word.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Se il file PDF contenesse pagine con immagini acquisite da scanner, quindi senza alcun testo selezionabile, il file Word che SmallPDF produrrà consentirà di selezionare e copiare altrove tutto quanto di proprio interesse.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Riconoscimento ottico dei caratteri con IceCream PDF Converter

In passato abbiamo presentato nelle pagine de IlSoftware.it l'ottimo IceCream PDF Editor un completo editor che permette di apportare direttamente modifiche sul contenuto dei documenti PDF: Modifica PDF esistenti con l'editor IceCream.
Il programma è molto valido (tra l'altro è completamente gratuito) ma soffre di una mancanza: è privo di un modulo OCR. IceCream PDF Editor non riesce a rendere selezionabili e copiabili altrove i testi contenuti nei documenti scannerizzati.

In alternativa è possibile utilizzare IceCream PDF Converter che integra le funzionalità OCR.
Il programma è distribuito anche in versione gratuita che soffre però di alcune limitazioni rispetto alla versione Pro.

Nel momento in cui si aprirà un documento scannerizzato in formato PDF, IceCream PDF Converter riconoscerà la presenza di immagini contenenti del testo e proporrà l'attivazione dell'OCR.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Soluzione gratuita: PDF-XChange Editor

L'immarcescibile PDF-XChange Editor offre un set di funzionalità piuttosto ridotto quando si tratta di modificare il contenuto di un PDF (mentre IceCream PDF Editor è attualmente "il re" tra i software gratuiti) ma si mette in evidenza per le sue abilità OCR.


La procedura da seguire per convertire immagini in testo a partire dal contenuto del file PDF è molto semplice: basta dapprima scaricare e installare PDF-XChange Viewer, caricare il pacchetto per il riconoscimento OCR della lingua italiana prelevando questo file quindi cliccando due volte sull'eseguibile in esso contenuto.

Dopo aver avviato PDF-XChange Viewer e aperto il documento PDF contenente le immagine dei fogli cartacei scannerizzati, si potrà fare clic sul menu Documento, Scansione testo pagine con OCR e impostare le varie opzioni come in figura.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Dopo che il riconoscimento ottico dei caratteri sarà completato, basterà scegliere File, Salva con nome e memorizzare il file PDF con un altro nome. Aprendo il file con un qualunque lettore di file PDF si noterà come le varie parti del documento risulteranno selezionabili e copiabili altrove.

WPS PDF to Word Converter con funzionalità OCR gratuite

Una valida alternativa è il poco conosciuto WPS PDF to Word Converter che avevamo presentato qualche tempo fa nell'articolo Convertire PDF in Word, quali programmi usare.
WPS PDF to Word Converter consente di trasformare file PDF in Word modificabili ma a differenza di altri programmi permette di utilizzare funzionalità OCR sulle immagini di documenti scannerizzati.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Con un clic su Settings si possono specificare informazioni aggiuntive sul layout del PDF e indicare su quali elementi dovrà essere attivato il riconoscimento ottico dei caratteri (OCR).
Nella versione gratuita WPS PDF to Word Converter può convertire in Word documenti composti da un numero massimo di 5 pagine.


Menzione speciale per gImageReader che è semplicemente un front-end grafico per il notissimo motore OCR Tesseract.


OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone