Reddit accusa Perpexity di scraping dati: cosa sta succedendo?

Reddit ha citato Perplexity e atre compagnie con l'accusa di aver estratto contenuti dagli SERP Google per alimentare sistemi AI.

Nell’ecosistema digitale odierno, il tema della protezione dei dati e dei contenuti online è diventato sempre più centrale, specialmente in relazione alle pratiche di scraping massivo.

Negli ultimi mesi, la piattaforma Reddit si è trovata al centro di una battaglia legale che rischia di segnare un punto di svolta per tutto il settore tecnologico, ridefinendo il delicato equilibrio tra accesso aperto alle informazioni e tutela dei diritti sulle piattaforme che ospitano contenuti generati dagli utenti.

La controversia è esplosa quando Reddit ha deciso di portare in tribunale quattro società tecnologiche, accusandole di aver effettuato un’estrazione non autorizzata di miliardi di pagine, tra cui quasi 3 miliardi di risultati nelle pagine di ricerca (SERP) in appena due settimane. Il procedimento, avviato il 22 ottobre 2025 presso il tribunale federale di New York, vede come principali imputati la startup Perplexity e tre aziende specializzate in servizi di scraping: Oxylabs UAB, Awmproxy e Serpapi.

Secondo quanto sostenuto da Reddit, la piattaforma avrebbe sfruttato i risultati di ricerca di Google per accedere a discussioni e commenti generati dagli utenti, aggirando così le protezioni tecniche anti-scraping predisposte in precedenza. La startup, che si definisce un “answer engine”, viene accusata di aver integrato in modo massiccio contenuti di Reddit nelle proprie risposte, presentandoli ai suoi utenti senza alcuna autorizzazione formale.

Le pesanti accuse di Reddit

Per dimostrare la portata e la concretezza delle accuse, Reddit ha condotto un esperimento: è stato creato un contenuto tracciabile, accessibile esclusivamente tramite una ricerca su Google. Nel giro di poche ore, questo materiale è stato ritrovato tra le risposte fornite da Perplexity, rappresentando una prova tangibile del funzionamento contestato e del meccanismo di estrazione dei dati.

Le cifre emerse dai documenti legali sono impressionanti: in sole due settimane di luglio 2025, sono stati scaricati circa 3 miliardi di risultati di ricerca, contenenti una vasta mole di contenuti  provenienti da Reddit. Secondo l’accusa, le società coinvolte avrebbero anche mascherato i propri bot per eludere le barriere tecniche predisposte proprio in protezione delle informazioni, intensificando così la gravità delle violazioni contestate.

Non sono mancate le reazioni da parte delle aziende coinvolte. Perplexity ha respinto fermamente le accuse, sostenendo che il proprio servizio si limita a riassumere discussioni pubbliche, senza utilizzare tali dati per l’addestramento di modelli di intelligenza artificiale. Dal canto suo, Serpapi ha dichiarato di voler difendere energicamente la propria posizione in tribunale, mentre Oxylabs si è detta sorpresa dalle contestazioni, sottolineando di fornire esclusivamente strumenti di accesso a informazioni pubblicamente disponibili. Awmproxy, invece, si è mantenuta più cauta nelle dichiarazioni pubbliche.

La vicenda mette in evidenza il crescente conflitto tra le piattaforme che ospitano contenuti generati da utenti e le società che sviluppano soluzioni di AI, in particolare quelle che si affidano a tecniche di scraping per alimentare i propri sistemi. Da una parte si invoca il principio di accesso libero alle informazioni pubbliche, dall’altra si rivendica il diritto delle piattaforme a proteggere e monetizzare i propri archivi, anche attraverso accordi di licenze con grandi player come Google e OpenAI.

Ti consigliamo anche

Link copiato negli appunti