19257 Letture
OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Alcuni suggerimenti per trasformare le scansioni di pagine cartacee in testo modificabile utilizzabile in un qualunque editor.

La tecnologia OCR (acronimo di Optical Character Recognition) consente di rilevare i caratteri che compongono qualunque documento salvato come immagine e di trasformarli in testo modificabile, talvolta conservando anche il layout del documento originale.

I programmi OCR possono essere utilizzati sia per rendere modificabile il testo acquisito da scanner o i documenti fotografati con uno smartphone, sia per intervenire direttamente sul contenuto dei file PDF.
Quando si lavora con file in formato PDF inviati da collaboratori, dipendenti e colleghi, infatti, spesso ci si accorge che le pagine sono formate solamente da immagini di fogli cartacei acquisiti tramite scanner. Il documento PDF viene quindi utilizzato solamente come "contenitore" mentre le informazioni acquisite tramite scanner non sono né selezionabili né copiabili altrove.

OCR da smartphone con Office Lens, Adobe Scan e Google Keep

Iniziamo col dire che se si volesse trasformare istantaneamente una pagina cartacea in un testo modificabile usando solo il proprio smartphone è possibile usare speciali applicazioni che integrano funzionalità OCR.
La più ridotta in termini di funzionalità ma anche la più rapida da usare è Google Keep.


Selezionando Scatta foto o Scegli immagine in Google Keep si può dapprima acquisire la foto di una pagina stampata; cliccando sul pulsante in alto a destra raffigurante tre puntini in colonna quindi su Recupera testo immagine, il contenuto dell'immagine sarà interamente sottoposto a riconoscimento ottico dei caratteri (OCR).

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Come spiegato nell'articolo Google Keep: per gestire promemoria e note, con OCR e riconoscimento vocale, tuttavia, il testo riconosciuto da parte del modulo OCR sarà testo semplice, "da Blocco Note", senza la conservazione di una formattazione del documento.

Office Lens e Adobe Scan offrono invece risultati nettamente migliori creando file PDF a partire dalle foto dei documenti acquisite tramite la fotocamera del dispositivo mobile.
La foto viene automaticamente ottimizzata e inserita in un file in formato PDF. Ogni area di testo del documento, una volta sottoposta a OCR, diventa selezionabile e copiabile altrove.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Abbiamo presentato Office Lens e Adobe Scan, rispettivamente, negli articoli Scansione documenti con Android: arriva il nuovo Office Lens e Scansione di un documento dallo smartphone con Adobe Scan.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

OCR online con SmallPDF

Tra le soluzioni che offrono i migliori risultati in assoluto c'è sicuramente SmallPDF: questo strumento offre risultati eccezionali anche con i documenti PDF contraddistinti da un layout complessi con testi (font di carattere non comuni) e molte immagini. Il bello di SmallPDF è che accedendo a questa pagina quindi selezionando PDF to Word il documento viene dapprima analizzato, viene sottoposto a OCR quindi trasformato in formato Word.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Se il file PDF contenesse pagine con immagini acquisite da scanner, quindi senza alcun testo selezionabile, il file Word che SmallPDF produrrà consentirà di selezionare e copiare altrove tutto quanto di proprio interesse.


OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Riconoscimento ottico dei caratteri con IceCream PDF Converter

In passato abbiamo presentato nelle pagine de IlSoftware.it l'ottimo IceCream PDF Editor un completo editor che permette di apportare direttamente modifiche sul contenuto dei documenti PDF: Modifica PDF esistenti con l'editor IceCream.
Il programma è molto valido (tra l'altro è completamente gratuito) ma soffre di una mancanza: è privo di un modulo OCR. IceCream PDF Editor non riesce a rendere selezionabili e copiabili altrove i testi contenuti nei documenti scannerizzati.

In alternativa è possibile utilizzare IceCream PDF Converter che integra le funzionalità OCR.
Il programma è distribuito anche in versione gratuita che soffre però di alcune limitazioni rispetto alla versione Pro.

Nel momento in cui si aprirà un documento scannerizzato in formato PDF, IceCream PDF Converter riconoscerà la presenza di immagini contenenti del testo e proporrà l'attivazione dell'OCR.


OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Soluzione gratuita: PDF-XChange Editor

L'immarcescibile PDF-XChange Editor offre un set di funzionalità piuttosto ridotto quando si tratta di modificare il contenuto di un PDF (mentre IceCream PDF Editor è attualmente "il re" tra i software gratuiti) ma si mette in evidenza per le sue abilità OCR.


La procedura da seguire per convertire immagini in testo a partire dal contenuto del file PDF è molto semplice: basta dapprima scaricare e installare PDF-XChange Viewer, caricare il pacchetto per il riconoscimento OCR della lingua italiana prelevando questo file quindi cliccando due volte sull'eseguibile in esso contenuto.

Dopo aver avviato PDF-XChange Viewer e aperto il documento PDF contenente le immagine dei fogli cartacei scannerizzati, si potrà fare clic sul menu Documento, Scansione testo pagine con OCR e impostare le varie opzioni come in figura.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Dopo che il riconoscimento ottico dei caratteri sarà completato, basterà scegliere File, Salva con nome e memorizzare il file PDF con un altro nome. Aprendo il file con un qualunque lettore di file PDF si noterà come le varie parti del documento risulteranno selezionabili e copiabili altrove.

WPS PDF to Word Converter con funzionalità OCR gratuite

Una valida alternativa è il poco conosciuto WPS PDF to Word Converter che avevamo presentato qualche tempo fa nell'articolo Convertire PDF in Word, quali programmi usare.
WPS PDF to Word Converter consente di trasformare file PDF in Word modificabili ma a differenza di altri programmi permette di utilizzare funzionalità OCR sulle immagini di documenti scannerizzati.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone

Con un clic su Settings si possono specificare informazioni aggiuntive sul layout del PDF e indicare su quali elementi dovrà essere attivato il riconoscimento ottico dei caratteri (OCR).
Nella versione gratuita WPS PDF to Word Converter può convertire in Word documenti composti da un numero massimo di 5 pagine.


Menzione speciale per gImageReader che è semplicemente un front-end grafico per il notissimo motore OCR Tesseract.

Programmi OCR commerciali per Windows

Tra i migliori software OCR commerciali per ambiente Windows ci sono programmi quali FineReader, Omnipage Ultimate e Readiris.
Già presentati in altri nostri articoli, integrano oltre 100 dizionari in varie lingue, alcuni dei quali specializzati per i testi riguardanti temi tecnici, di diritto o di medicina.

FineReader, ad esempio, è dotato di un editor di immagini, di un editor di PDF e di un modulo in grado di analizzare gli screenshot. L'eccellente OCR dispone di un enorme ventaglio di possibilità, esporta i file in formato e-book e riconosce i linguaggi di programmazione.

Omnipage Ultimate riduce al minimo gli errori nel riconoscimento ottico dei caratteri e utilizza dizionari specializzati per il diritto e la medicina integrando anche molte opzioni per l'elaborazione automatica dei documenti. L'interfaccia utente è ampiamente migliorabile risultando un po’ confusa.

Readiris è capace di separare bene tabelle e testi durante la digitalizzazione dei documenti a condizione che le singole aree siano state precedentemente contrassegnate. Per ottenere un buon riconoscimento è opportuno regolare manualmente le impostazioni predefinite.

Altri OCR installabili sui dispositivi Android

Tra le migliori app Android dotate di funzionalità OCR, citiamo OPRA - Real Time OCR. Essa consente di riconoscere i testi contenuti nei documenti in tempo reale: non è necessario salvare in locale alcuna foto e documenti di decine di pagine possono essere acquisiti trasformandoli in PDF con testo ricercabile in pochi minuti.


Veloce e precisa è anche Smart Lens che diversamente rispetto a OPRA richiede una connessione Internet attiva e funzionante.
L'applicazione è in grado anche di riconoscere e ordinare URL e numeri di telefono in liste create appositamente. Il riconoscimento del testo funziona bene solo in modalità online. Molte funzionalità sono fruibili solo acquistando la versione Premium a 1,39 euro.

Tra le app per Android migliori in assoluto c'è anche Text Fairy che riconosce correttamente offline 70 lingue. L'applicazione elabora senza problemi documenti a più colonne e non mostra fastidiose inserzioni pubblicitarie. Non esiste una versione Premium.

OCR, quali i migliori per riconoscere il testo acquisito da scanner o da smartphone