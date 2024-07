Per addestrare i modelli generativi usati dalle moderne intelligenze artificiali, i principali fornitori utilizzano (anche) dei bot che scandagliano il contenuto dei siti Web. Le informazioni recuperate consentono la realizzazione di Large Language Model (LLM) capaci di sviluppare “conoscenze” su un ventaglio estremamente vasto di argomenti. Come spiega Cloudflare, non tutte le aziende impegnate nello sviluppo di intelligenze artificiali sono trasparenti riguardo alle loro attività di web scraping.

Negli ultimi anni, alcuni giganti della tecnologia sono stati coinvolti in pratiche controverse. Ad esempio, Google ha pagato 60 milioni di dollari l’anno per utilizzare i contenuti generati dagli utenti di Reddit. Scarlett Johansson ha accusato OpenAI di utilizzare la sua voce senza consenso; più di recente Perplexity è stata accusata di impersonare visitatori legittimi per raccogliere i contenuti pubblicati sui siti Web.

Cloudflare presenta uno strumento per bloccare i bot usati per sviluppare e aggiornare i modelli generativi

Il servizio proxying di Cloudflare è uno tra i più apprezzati in assoluto. Milioni di siti Web in tutto il mondo vi si appoggiano per velocizzare il caricamento delle pagine Web, ottimizzare le immagini, la struttura delle pagine e attivare funzionalità avanzate (come il Web Application Firewall o la protezione contro gli attacchi DDoS).

L’azienda guidata da Matthew Prince annuncia l’introduzione della nuova opzione AI Scrapers and Crawlers: attivandola dalla dashboard di Cloudflare, è possibile impedire a qualsiasi bot usato per formare le intelligenze artificiali, di scandagliare, acquisire e riutilizzare i contenuti del vostro sito Web.

Il blocco tramite robots.txt non è sempre sufficiente

Molti gestori di siti Web utilizzano il file robots.txt per bloccare l’accesso ai bot utilizzati per i modelli generativi. L’efficacia di questa soluzione dipende tuttavia dall’onestà degli sviluppatori nell’attenersi alle direttive contenute all’interno di robots.txt .

Purtroppo, molti bot tentano di mascherarsi come browser reali modificando la stringa user agent con la quale si presentano. Grazie a suoi modelli di machine learning, Cloudflare è in grado di riconoscere questi comportamenti e di bloccare i bot che non si comportano correttamente, indipendentemente dalle impostazioni del file robots.txt .

Per rispondere alle esigenze degli utenti, Cloudflare ha aggiunto un pulsante che permette di bloccare tutti i bot IA con un solo clic. La funzione è disponibile per tutti i clienti, compresi coloro che hanno attivato un account gratuito, accedendo alla sezione Sicurezza, Bot della dashboard Cloudflare.

Il meccanismo di protezione sarà progressivamente aggiornato, man mano che i tecnici Cloudflare identificheranno nuovi bot che tentano di raccogliere contenuti per l’addestramento dei modelli.

I bot IA più affamati di contenuti secondo Cloudflare

Per concludere, Cloudflare ha stilato una tabella che offre indicazioni preziose su quali siano i bot IA più attivi sull’intera rete dell’azienda di San Francisco. È un’informazione importante perché Cloudflare protegge e velocizza un numero incalcolabile di siti e pagine in tutto il mondo; inoltre, può contare su una rete distribuita su vasta scala, capace di offrire nodi fisicamente molto vicini ai sistemi client degli utenti finali.

L’analisi elaborata da Cloudflare rivela che per volume delle richieste, Bytespider non ha al momento rivali. È utilizzato da ByteDance (la stessa società di TikTok) per raccogliere dati di addestramento da trasferire ai suoi modelli di linguaggio. Particolarmente attivi sono GPTBot, utilizzato da OpenAI, e ClaudeBot, il crawler sfruttato per addestrare Claude.

Credit immagine in apertura: Cloudflare