Cloudflare accusa Perplexity: crawler aggirano i blocchi dei siti web?

Cloudflare denuncia Perplexity per l’uso di crawler stealth che eludono robots.txt e firewall, sollevando dubbi sulla tutela dei contenuti online.
Cloudflare accusa Perplexity: crawler aggirano i blocchi dei siti web?

Al giorno d’oggi, la tutela dei contenuti online rappresenta una delle sfide più delicate e controverse, soprattutto quando in gioco ci sono colossi della tecnologia pronti a spingersi oltre i limiti imposti dai gestori dei siti web.

Un caso emblematico di questa tensione è rappresentato dalla recente denuncia di Cloudflare nei confronti di Perplexity, società accusata di aggirare in modo sistematico le barriere digitali poste a difesa dei dati presenti sui siti.

La controversia ha origine dalle sofisticate strategie di web crawler messe in campo da Perplexity, che secondo Cloudflare riuscirebbero a superare i vincoli stabiliti attraverso il file robots.txt. Quest’ultimo costituisce, di fatto, una barriera fondamentale: un vero e proprio cartello digitale con cui i proprietari dei siti indicano chiaramente quali sezioni del portale possano essere visitate dai bot e quali, invece, debbano restare inaccessibili. Il rispetto di queste direttive è cruciale per garantire la corretta gestione dei dati e la protezione della proprietà intellettuale.

L’indagine portata avanti da Cloudflare ha messo in luce un comportamento particolarmente allarmante. Anche in presenza di un blocco esplicito rivolto ai crawler ufficiali di Perplexity – identificati come “PerplexityBot” e “Perplexity-User” – la piattaforma sarebbe comunque in grado di visualizzare e raccogliere contenuti da siti nuovi o dotati di specifiche protezioni. Questa anomalia ha fatto emergere il sospetto che Perplexity faccia ricorso a tecniche di stealth crawling, ovvero l’utilizzo di bot non dichiarati che si mascherano da normali utenti umani per aggirare le restrizioni.

Perplexity usa crawler “nascosti”?

Particolarmente raffinato appare il sistema adottato per eludere i firewall predisposti dai siti web. Secondo le rilevazioni di Cloudflare, i crawler camuffati si presenterebbero come browser Google Chrome in esecuzione su macOS, alternando in modo continuo sia gli indirizzi IP che gli Autonomous System Numbers (ASN).

Questo costante cambio di identità digitale consente ai bot di sfuggire ai meccanismi di rilevamento automatico, rendendo molto più complessa l’identificazione e il blocco delle attività sospette. I dati raccolti da Cloudflare indicano che tali operazioni coinvolgerebbero decine di migliaia di domini e genererebbero milioni di richieste ogni giorno, delineando uno scenario di raccolta dati su larga scala.

Non si tratta della prima accusa mossa contro Perplexity in merito a pratiche considerate borderline. In passato, la società era già stata al centro di polemiche per aver ignorato le direttive contenute nei robots.txt, sostenendo che tali azioni fossero da attribuire a crawler di terze parti non direttamente controllati. Successivamente, per legittimare la propria attività, Perplexity aveva cercato di stringere accordi con alcuni editori, puntando sulla condivisione dei ricavi pubblicitari generati dai contenuti acquisiti tramite crawling.

La risposta di Cloudflare non si è fatta attendere: l’azienda ha deciso di rimuovere i bot di Perplexity dalla lista dei crawler verificati, rafforzando al contempo le proprie difese attraverso nuove misure di identificazione e blocco dei bot non dichiarati.

Ti consigliamo anche

Link copiato negli appunti