I Visual Language Models (VLM) sono modelli AI che integrano l’analisi visiva e la comprensione testuale. Operano convertendo immagini in token visivi attraverso un encoder visivo pre-addestrato, poi elaborati da un LLM (Large Language Model). Sono impiegati per gli assistenti accessibili, la navigazione UI, la robotica, il gaming e la realtà aumentata.
Apple ha svelato FastVLM, un innovativo VLM progettato per risolvere uno dei principali dilemmi dei sistemi AI multimodali: il compromesso tra accuratezza e latenza. Presentato in un approfondimento elaborato dai tecnici Apple, FastVLM combina una nuova architettura ibrida di visione con un design semplificato, risultando più veloce e preciso di modelli VLM concorrenti, con capacità operative in tempo reale direttamente sui dispositivi mobili.
VLM: quali sono le sfide che affrontano
L’efficienza dei VLM diminuisce all’aumentare della risoluzione dell’immagine in input, anche se quest’ultima è cruciale per ottenere risposte accurate in compiti complessi come:
- Lettura documentale.
- Riconoscimento di interfacce utente.
- Risposta a domande in linguaggio naturale basate su immagini.
Il problema chiave è il Time To First Token (TTFT), cioè il tempo necessario per elaborare visivamente l’immagine e iniziare a generare una risposta testuale. Più è alta la risoluzione, maggiore è il carico computazionale sull’encoder visivo e maggiore è il numero di token generati per l’LLM.
FastVLM: una svolta per i VLM funzionanti in locale sui dispositivi mobili
Il VLM di Apple unisce FastViTHD, un encoder visivo ibrido specificamente ottimizzato per immagini ad alta risoluzione, e un modulo MLP semplice che proietta i token visivi nello spazio latente dell’LLM.
FastViTHD è di fatto una rete neurale che combina elementi convoluzionali (utili per catturare dettagli locali, come bordi o forme) con Transformer (utili per comprendere le relazioni più ampie nell’immagine). Dopo che FastViTHD ha “tradotto” l’immagine in token visivi (rappresentazioni numeriche che descrivono le informazioni visive), questi token devono essere “capiti” dal modello linguistico (LLM).
Per farlo, Apple utilizza un modulo MLP (Multi-Layer Perceptron) molto semplice, che ha il compito di proiettare i token visivi nello spazio delle rappresentazioni dell’LLM, cioè convertirli in una forma compatibile e interpretabile dal modello linguistico.
Il modello FastVLM nel suo complesso è quindi progettato per funzionare localmente, anche su dispositivi mobili come gli iPhone, ridurre drasticamente il TTFT, gestire immagini ad alta risoluzione senza sacrificare prestazioni, evitare tecniche complesse di pruning o merging dei token.
Demo su iPhone: inferenza locale in tempo reale
Una delle dimostrazioni più notevoli è l’esecuzione di FastVLM su un iPhone 16 Pro, con una latenza minima e la capacità di rispondere a interrogazioni visive in tempo reale.
Guardate ad esempio questo video pubblicato dai tecnici della Mela: il VLM “intelligente” di Apple è in grado di rispondere in tempo reale ai quesiti (prompt) dell’utente adattandosi alle immagini che cambiano.
Il repository GitHub di FastVLM contiene un’implementazione perfettamente funzionante del VLM Apple. Oltre al codice sorgente del progetto, sono disponibili modelli preaddestrati e un’applicazione dimostrativa per iOS e macOS.
Conclusione: VLM per l’AI privata, veloce e on-device
Con FastVLM, Apple introduce una nuova frontiera nei modelli linguistici visivi. La combinazione tra FastViTHD e un design architetturale semplice ma performante consente:
- Accuratezza paragonabile o superiore rispetto a VLM complessi.
- Esecuzione on-device, favorendo applicazioni AI in grado di preservare la privacy.
- Applicazioni concrete in realtà aumentata, accessibilità, OCR e interazione visiva naturale.
In definitiva, FastVLM rappresenta un modello di riferimento per la prossima generazione di VLM: più leggeri, più veloci e più intelligenti.