Nel 2025 l’equilibrio tra motori di ricerca, utenti e creatori di contenuti si sta ridefinendo in modo profondo. Se per oltre due decenni il paradigma dominante è stato quello del search-to-click — con i motori di ricerca che indirizzavano traffico verso i siti Web in cambio della possibilità di indicizzarne i contenuti, oggi si afferma un modello nuovo segnato dalla presenza sempre più massiccia, sulle pagine Internet, dei bot utilizzati per l’addestramento delle AI generative.
I dati pubblicati da Cloudflare Radar mostrano con chiarezza questa transizione: l’attività di crawling da parte di bot legati ai modelli linguistici (LLM, Large Language Models) è in forte crescita, mentre i referral effettivi, cioè i click reali generati verso i siti, diminuiscono drasticamente. È il cosiddetto crawl-to-click gap, una forbice che rischia di diventare insostenibile per l’ecosistema editoriale e informativo della rete.
La crescita dei bot AI: OpenAI, Anthropic e Meta al comando
Secondo l’analisi condivisa da Cloudflare, il bot più attivo a livello globale è GPTBot di OpenAI, che in un anno ha più che raddoppiato la sua quota, passando dal 4,7% all’11,7% del traffico di crawling. ClaudeBot di Anthropic è cresciuto dal 6% al 9,9%, con un’accelerazione a partire da giugno 2025. Meta-ExternalAgent ha segnato l’incremento più rapido, da appena lo 0,9% al 7,5%, probabilmente legato all’espansione dei progetti AI di Meta.
Al contrario, Amazonbot e soprattutto Bytespider di ByteDance hanno subito forti cali: rispettivamente dal 10,2% al 5,9% e dal 14,1% a un marginale 2,4%.
Questa redistribuzione mette in luce una dinamica competitiva precisa: i player più concentrati sullo sviluppo di modelli linguistici general-purpose stanno aumentando la loro capacità di raccolta dati, mentre bot con finalità più tradizionali o regionali generano in proporzione molto meno traffico Web.
Le finalità del crawling: l’addestramento domina
La classificazione delle finalità del crawling evidenzia un dato inequivocabile: quasi l’80% dell’attività dei bot AI è finalizzata all’addestramento dei modelli.
Il confronto anno su anno mostra il trend:
- Luglio 2024: 72% training, 26% search, 2% azioni utente.
- Luglio 2025: 79% training, 17% search, 3,2% azioni utente.
In altre parole, i bot non servono più principalmente per supportare la ricerca classica, ma per alimentare i dataset che stanno alla base dei modelli generativi. La ricerca tradizionale è in contrazione, mentre gli accessi “mediati dall’utente” (clic su link all’interno di interfacce AI) restano marginali.
Il paradosso del crawl-to-refer ratio
Uno dei dati più significativi è il rapporto crawl-to-refer, che misura quante pagine un bot visita per ogni visita effettiva generata verso il sito.
Anthropic resta il caso più estremo: da 286.000 pagine per referral in gennaio 2025, è scesa a circa 38.000 in luglio (grazie all’introduzione di citazioni cliccabili in Claude), ma rimane la piattaforma con il gap più ampio.
OpenAI si mantiene intorno a 1.000 pagine per referral, con un leggero miglioramento (-10%).
Perplexity ha seguito la traiettoria opposta: da 55 a 195 crawl per referral (+257%), segno di un peggioramento nel bilanciamento tra raccolta dati e traffico restituito.
Google resta ancorata a un modello più tradizionale (11,8 crawl per referral), ma anche qui il trend è in calo, complice anche una più frequente visualizzazione in cima ai risultati sul motore di ricerca delle AI Overview, una scelta che riduce verticalmente il traffico verso i siti di contenuti.
AI Overview e il declino dei referral da Google
Un altro dato centrale riguarda Google. Con l’introduzione delle funzionalità AI (AI Overview con Gemini 2.0 e 2.5, ricerca conversazionale, Deep Search), i referral verso i siti che pubblicano contenuti sono crollati.
A marzo 2025, i dati segnalano un -9% rispetto a gennaio; ad aprile il calo ha toccato il -15%; in giugno, la flessione è rimasta sul -9%.
Per la prima volta, il declino non è legato alla stagionalità (tipica di luglio e agosto), ma a una modifica strutturale del modo in cui gli utenti fruiscono i contenuti: leggono le risposte AI direttamente in SERP (o meglio, nella parte superiore della prima pagina dei risultati), senza mai cliccare.
Verifica e trasparenza: un problema ancora aperto
Cloudflare segnala che molti bot AI rispettano le direttive eventualmente inserite dai webmaster nel file robots.txt
. Tuttavia, standard più evoluti come WebBotAuth, basati su firme crittografiche per autenticare le richieste, non sono ancora adottati.
Questo lascia margini di incertezza e abuso: in particolare, Anthropic non offre meccanismi robusti di verifica, rendendo facile lo spoofing da parte di attori malevoli. In assenza di tracciabilità, distinguere traffico legittimo da traffico falsificato diventa difficile.
La posizione di Cloudflare: monetizzare l’accesso da parte dei bot AI per salvare il Web
La lettura dei dati non basta: serve anche una strategia per riportare equilibrio tra chi produce contenuti e chi li consuma attraverso l’AI.
È su questo punto che Matthew Prince, CEO di Cloudflare, ha assunto una posizione netta. Secondo Prince, il rischio è che i chatbot generativi diventino gatekeeper dell’informazione, assorbendo contenuti senza restituire valore agli editori.
La sua proposta, denominata pay-per-crawl, mira a introdurre un modello economico simile a quello che ha regolamentato la musica e il cinema nell’epoca del digitale: i bot potranno accedere ai contenuti, ma solo dietro pagamento. In questo modo, i creatori potrebbero monetizzare l’uso del proprio lavoro da parte delle AI, garantendo la sopravvivenza del giornalismo e di un Web aperto.
Prince sottolinea inoltre il pericolo della creazione di silos informativi, in cui i grandi operatori AI trattengono i dati e forniscono agli utenti soltanto versioni sintetiche e filtrate, riducendo trasparenza e pluralismo. La sua visione è chiara: senza un sistema di remunerazione, l’AI rischia di trasformare Internet in un enorme dataset privatizzato, svuotando gli incentivi alla produzione di conoscenza autentica.