Google fa rinascere Tesseract OCR

Business
OCR

Aggiungi IlSoftware.it come Fonte preferita su Google

C’era una volta un progetto, nato – in collaborazione con HP – all’Università del Nevada, Las Vegas. Era il 1985. L’obiettivo consisteva nello sviluppare un OCR (sistema di riconoscimento ottico dei caratteri) che operasse correttamente con tutti i generi di testo stampato. “Tesseract OCR”, questo il nome del progetto, con la diffusione del web cominciò paradossalmente a perdere terreno probabilmente soprattutto a causa della riorganizzazione di HP.
Vent’anni dopo arrivò Google. Il colosso di Mountain View nel 2005 ha deciso di far rinascere il progetto Tesseract OCR contribuendovi con aggiornamenti ed interventi correttivi tanto che il mese scorso l’azienda ha posto le basi per il rilascio di una nuova versione del software.
I problemi di fondo sono però due: il primo riguarda la licenza d’uso. Tesseract, infatti, sfrutta un componente gratuito denominato Aspirin/MIGRAINES, creato dall’ingegnere Russell Leighton. Aspirin non è un prodotto opensource: ciò potrebbe causare qualche impedimento per gli sviluppatori che volessero integrare Tesseract nei rispettivi applicativi. Il secondo problema riguarda le abilità di riconoscimento dei caratteri: Tesseract è considerato come l’OCR più performante mai sviluppato sino ad oggi ma presenta diverse lacune nell’interpretare correttamente caratteri speciali, non standard o comunque non facenti parte dell’alfabeto inglese.
La pagina di riferimento di Tesseract OCR su SourceForge è raggiungibile cliccando qui.

Google fa rinascere Tesseract OCR

Ti consigliamo anche

Basta cloud pubblico: Synology DS1825+ porta collaborazione Office ed email dentro l'azienda

Obsidian ha un nuovo rivale: Files.md vuole riportare le note alla semplicità assoluta

Offerta a tempo: Office 2021 e Windows 11 Pro a vita, a partire da 12€!

Puter trasforma il browser in un sistema operativo: perché divide gli utenti