/https://www.ilsoftware.it/app/uploads/2024/07/vivaldi-llm-intelligenza-artificiale.jpg)
Una vera e propria svolta si sta profilando all’orizzonte nel mondo dell’Intelligenza Artificiale: Google ha infatti presentato una nuova metodologia capace di cambiare radicalmente le regole del gioco nell’addestramento AI.
Il risultato? Un’efficienza mai vista prima e una qualità superiore dei modelli linguistici, grazie a un drastico taglio del volume di dati necessari per la formazione dei sistemi. Con l’introduzione dell’innovativo efficient data selection loop, il colosso di Mountain View ha dimostrato che, per raggiungere risultati d’eccellenza, non serve più accumulare enormi quantità di informazioni: ora bastano meno di 500 elementi per ottenere performance che, fino a ieri, richiedevano dataset duecento volte più grandi.
Questa nuova strategia segna un vero e proprio cambio di paradigma per il settore. Se fino a oggi la tendenza dominante era quella di alimentare i modelli con miliardi di dati, puntando sulla forza bruta della quantità, oggi la ricerca di Google mostra come la qualità e la selezione mirata delle informazioni possano garantire risultati addirittura superiori. Il cuore del nuovo approccio risiede in un processo ciclico che integra la potenza dell’AI con il valore insostituibile dell’expertise umana.
Cos’è e come funziona l’efficient data selection loop?
L’efficient data selection loop parte da un piccolo campione di dati iniziali, sui quali il sistema viene addestrato e le casistiche vengono suddivise in categorie ben definite. Ma la vera innovazione è rappresentata dall’identificazione delle cosiddette “zone grigie”: sono quei casi limite, dove la classificazione risulta ambigua o particolarmente complessa
Solo questi dati, selezionati con estrema precisione, vengono poi sottoposti all’analisi di esperti umani. In questo modo, il perfezionamento del modello è altamente mirato e si concentra esclusivamente sulle aree in cui l’algoritmo mostra incertezza, massimizzando così l’efficacia dell’intervento umano e riducendo al minimo il volume di dati richiesto.
I risultati dei test parlano chiaro: applicando questo metodo ai modelli linguistici Gemini Nano – nello specifico le versioni Gemini Nano-1 (con 1,8 miliardi di parametri) e Gemini Nano-2 (3,25 miliardi di parametri) – si è assistito a un incremento di accuratezza impressionante. Il modello più compatto ha raggiunto prestazioni paragonabili a quelle ottenute con dataset di dimensioni molto maggiori, mentre il modello più avanzato ha visto crescere l’accuratezza dal 55% al 65%, pur lavorando su un insieme di dati drasticamente ridotto.
Un elemento emerso con forza dagli studi di Google riguarda la qualità delle etichette utilizzate nei dati di addestramento. Per superare le performance dei sistemi tradizionali, è essenziale che il livello di concordanza tra gli esperti umani coinvolti nell’etichettatura superi la soglia dello 0,8 sulla scala Kappa.