Andrej Karpathy entra in Anthropic: il settore AI osserva con attenzione

Andrej Karpathy entra in Anthropic per guidare ricerca e pretraining dei modelli Claude: la sfida tra laboratori AI si sposta su talenti, GPU e sviluppo di sistemi sempre più autonomi.

La corsa ai talenti nel campo dell’intelligenza artificiale ha appena registrato uno dei movimenti più significativi degli ultimi mesi: Andrej Karpathy entra in Anthropic. La notizia non riguarda soltanto un cambio di datore di lavoro: dietro questa scelta, confermata dal diretto interessato, si intravedono dinamiche molto più profonde che coinvolgono attività di ricerca sui modelli linguistici, disponibilità di potenza computazionale e competizione sempre più aggressiva tra le aziende che sviluppano sistemi AI di frontiera.

Andrej Karpathy non è un nome qualunque: ha partecipato alla fondazione di OpenAI nel 2015, ha guidato il team di computer vision di Tesla durante la fase più ambiziosa del progetto Autopilot e, dopo una breve parentesi che ha visto il suo ritorno in OpenAI, ha fondato Eureka Labs, iniziativa focalizzata sull’educazione assistita dall’intelligenza artificiale. Nel settore è considerato una figura rara: ricercatore accademico con solide competenze matematiche ma anche ingegnere capace di lavorare su infrastrutture AI su scala industriale.

Anthropic lo inserirà nel gruppo che si occupa di pretraining, cioè la fase più costosa e critica nello sviluppo di un grande modello linguistico come Claude. Parliamo del processo con cui un LLM (Large Language Model) acquisisce conoscenza statistica leggendo enormi quantità di dati testuali, codice sorgente, documentazione tecnica e contenuti multimodali. È il cuore dell’addestramento di sistemi come Claude 4, GPT-5 o Gemini Ultra.

Perché il ruolo di Andrej Karpathy interessa l’intero settore AI

Molti osservatori si concentrano sulla dimensione mediatica dell’assunzione, ma il punto è un altro: Anthropic sta rafforzando in modo evidente la propria capacità di ricerca sulle architetture fondamentali dei modelli linguistici.

Karpathy ha accumulato esperienza diretta su problemi che oggi rappresentano il vero collo di bottiglia dell’AI generativa: non soltanto training distribuito su cluster GPU giganteschi, ma anche ottimizzazione delle reti neurali, gestione delle inferenze ad alta efficienza, scaling delle architetture Transformer e riduzione dei costi computazionali.

Durante gli anni in Tesla, per esempio, Karpathy ha dovuto gestire le richieste dell’azienda che aveva scelto un approccio quasi esclusivamente basato su telecamere e reti neurali convoluzionali, evitando lidar e sensori costosi adottati da concorrenti come Waymo. Quella decisione ha obbligato il team AI a costruire flussi di training video estremamente sofisticati; milioni di clip provenienti dalla flotta Tesla alimentavano continuamente i modelli di percezione.

L’esperienza Tesla ha comunque anche mostrato i limiti dell’AI moderna quando si parla di sicurezza: nonostante anni di sviluppo, l’azienda non commercializza ancora un veicolo completamente autonomo che possa circolare senza supervisione umana continua.

Anthropic punta sul pretraining assistito dall’AI

La parte più interessante dell’annuncio riguarda la missione affidata a Karpathy: usare Claude stesso per accelerare la ricerca sul pretraining.

I laboratori AI più avanzati stanno cercando di costruire sistemi capaci di assistere direttamente gli ingegneri durante lo sviluppo dei modelli successivi: l’intelligenza artificiale inizia ad aiutare nella progettazione di nuova intelligenza artificiale.

Le applicazioni pratiche sono numerose. Un LLM può già analizzare dataset rumorosi, identificare dati duplicati, suggerire strategie di tokenizzazione, produrre codice CUDA per ottimizzare kernel GPU oppure generare automaticamente esperimenti di fine tuning.

Anthropic sembra voler spingere questa idea molto più avanti: Karpathy dovrebbe costruire un team dedicato proprio a questo approccio, lavorando su strumenti interni capaci di automatizzare parte della ricerca empirica che oggi richiede settimane di lavoro umano.

La vera battaglia riguarda GPU e ricercatori

La concorrenza tra Anthropic e OpenAI non si gioca soltanto sulla qualità delle risposte dei modelli AI: dietro le quinte si sta consumando una guerra molto più concreta che riguarda tre elementi ovvero talenti, energia elettrica e disponibilità di chip.

L’addestramento dei modelli di intelligenza artificiale più avanzati richiede oggi infrastrutture informatiche estremamente grandi, composte da enormi quantità di potenza di calcolo, server specializzati e data center ad alte prestazioni. Cluster composti da decine di migliaia di GPU NVIDIA H100 o B200 consumano quantità di energia paragonabili a quelle di piccoli centri urbani. Così, i costi di addestramento di un singolo modello avanzato possono superare facilmente centinaia di milioni di dollari.

Anthropic sta investendo pesantemente proprio su questa area: l’azienda ha recentemente siglato accordi infrastrutturali con xAI per usare capacità computazionale del data center Colossus in Tennessee.

Karpathy arriva quindi in un momento delicato: Anthropic vuole aumentare rapidamente la velocità di ricerca senza far esplodere ulteriormente i costi. Un ricercatore con esperienza sia teorica sia ingegneristica può fare differenza soprattutto nell’ottimizzazione dell’efficienza.

Il ritorno alla ricerca pura

Nel messaggio pubblicato su X, Karpathy ha spiegato di voler tornare a fare ricerca e sviluppo in modo diretto.

Dopo anni trascorsi tra gestione di team, divulgazione e startup educational, la scelta di rientrare in un laboratorio suggerisce che la prossima fase dell’AI è già percepita come particolarmente decisiva.

I prossimi modelli non si limiteranno probabilmente a migliorare chatbot e generazione testuale: l’industria punta ormai verso sistemi agentici, memoria persistente, ragionamento multi-step e utilizzo autonomo di strumenti software.

Il problema è che l’incremento della dimensione dei modelli non basta più: i guadagni ottenuti semplicemente aumentando parametri e dataset stanno rallentando. Serve nuova ricerca architetturale, serve efficienza e occorre soprattutto capacità di trasformare enormi infrastrutture GPU in modelli realmente più intelligenti.

Ti consigliamo anche

Link copiato negli appunti