Dentro Common Crawl, la miniera di dati dell’AI che ti permette di interrogare il Web mondiale

Dietro l’avanzata dell’intelligenza artificiale generativa si nasconde Common Crawl, un immenso archivio pubblico del Web che raccoglie e conserva miliardi di pagine ogni mese. Chiunque può interrogarlo, ad esempio utilizzando un servizio come AWS Athena.

Dietro la rivoluzione dell’intelligenza artificiale generativa non ci sono soltanto potenza di calcolo e algoritmi avanzati, ma anche una massa colossale di informazioni testuali raccolte dal Web. Pochi sanno che una parte sostanziale di questi dati proviene da una fonte unica: Common Crawl, un archivio pubblico del Web nato per la ricerca accademica e diventato, negli anni, una componente essenziale del sistema di addestramento dei grandi modelli linguistici (LLM).

La realtà senza scopo di lucro che gestisce Common Crawl ha sede negli USA e opera come uno spider globale: ogni mese esplora miliardi di pagine Web e ne conserva il contenuto in forma di testo, metadati e link. Questi archivi, misurabili in petabyte, sono disponibili gratuitamente per chiunque voglia analizzarli: dai giganti dell’AI, ai ricercatori universitari fino, addirittura, agli utenti privati. Sì, perché basta un account cloud per lanciare query molto rapide sul contenuto dell’Internet mondiale, avvalendosi della base dati prodotta e aggiornata mensilmente o quasi da Common Crawl. Per il mese di ottobre 2025, il conteggio delle pagine Web “acquisite” da Common Crawl supera i 2,61 miliardi.

Common Crawl: un progetto di ricerca trasformato in una pipeline industriale

Common Crawl nasce nel 2007 come progetto no-profit per favorire l’accesso ai dati del Web. L’obiettivo era creare un corpus testuale condiviso, utile a linguisti computazionali, sociologi, studiosi di comunicazione e data scientist. Negli anni successivi, però, la natura del progetto è mutata: da risorsa per esperimenti accademici a fornitore di materia prima per l’addestramento di AI commerciali.

Oggi, diversi dataset ben noti — tutti alla base di modelli linguistici diffusi — derivano direttamente da Common Crawl o ne riutilizzano ampie porzioni. È il “livello zero” del “Web sintetico” su cui si costruiscono GPT, Claude, Gemini e modelli AI di ampio utilizzo.

Molti si chiedono perché aziende come OpenAI, Google o Anthropic, dotate di risorse illimitate, continuino a basarsi su Common Crawl invece di usare esclusivamente i propri sistemi di raccolta. Che vengono pure largamente utilizzati.

La risposta è duplice. Da un lato, costi e copertura: mantenere un’infrastruttura di scraping globale è dispendioso e legalmente complesso. Common Crawl, che effettua crawling regolare dal 2013, offre una base aggiornata, storica e già strutturata. Dall’altro, utilizzare un archivio pubblico consente alle aziende di evitare l’accusa diretta di violazione del copyright, scaricando di fatto l’onere etico sulla fondazione. In questo senso, Common Crawl funge da zona grigia giuridica: un deposito di dati “aperti” che diventa, per i modelli AI, una scorciatoia comoda e a basso rischio.

L’anomalia dei contenuti protetti

Ufficialmente, la fondazione dichiara di raccogliere solo materiale “liberamente disponibile”, ma analisi indipendenti mostrano che una parte significativa del corpus contiene articoli provenienti da siti con paywall.

Il motivo è tecnico: il crawler automatizzato, non caricando il codice JavaScript che attiva le barriere per i non abbonati, riesce a leggere il testo completo che si nasconde dietro il paywall. In realtà è cosa piuttosto scontata: qualunque editore che non implementi una protezione efficace lato server non può avere alcuna garanzia che i suoi contenuti siano difesi da letture non autorizzate. Il rovescio della medaglia è che mostrare ai bot (ad esempio ai motori di ricerca) quello che gli utenti normali non possono vedere ha storicamente rappresentato un vantaggio per i siti Web, soprattutto in termini di visibilità.

I paywall implementati in JavaScript, tuttavia, hanno permesso ai modelli linguistici di assorbire anni di giornalismo senza compensare le testate che hanno prodotto i testi.

Un aspetto poco noto è che i dataset di Common Crawl sono immutabili per design. I file WARC condivisi online non sono mai modificati dopo la pubblicazione, il che rende di fatto impossibile rimuovere selettivamente contenuti già scansionati e acquisiti. Questo, ad esempio, è l’annuncio della pubblicazione dell’archivio di ottobre 2025.

Le potenzialità di Common Crawl sono enormi, ben oltre l’AI

L’utilizzo di questi dati non è banale: a causa dell’enorme quantità e del formato in cui sono salvati, scaricare e analizzare manualmente l'”archivio” prodotto da Common Crawl richiede risorse notevoli e competenze specifiche. Per interrogare efficacemente l’intero archivio di Common Crawl in modo rapido, si può però utilizzare AWS Athena, servizio di analisi interattivo e serverless che consente di analizzare in modo semplice e flessibile petabyte di dati.

Specificando l’indirizzo del bucket S3 di Common Crawl in Athena (s3://commoncrawl/) e in particolare il comando aws s3 ls s3://commoncrawl/ dalla CLI (command-line interface), si può verificarne il contenuto e iniziare ad effettuare delle query. Ne parla Amazon stessa nel marketplace di AWS.

Interrogare Common Crawl tramite Athena permette di raccogliere informazioni senza dover eseguire alcuna scansione attiva sui siti Web. Ciò rende i dati estremamente utili per attività di Information Gathering nell’ambito della sicurezza informatica o della ricerca: di fatto Common Crawl aiuta a mettere a terra operazioni OSINT come nessun altro strumento disponibile online!

Pensate alla possibilità di ricercare, su tutte le pagine Web pubblicate in rete, tutti i siti che ospitano un determinato contenuto o che presentano un percorso specifico. Si possono cercare i siti che trattano determinati argomenti o che usano specifiche tecnologie; è possibile recuperare tutti gli hostname associati a un dominio specifico; scoprire correlazioni interessanti tra molteplici pagine.

Athena permette di visualizzare tutte le query eseguite in precedenza e scaricare gli output ottenuti in formato CSV, facilitando l’estrazione e l’analisi esterna dei dati estrapolati.

Conclusioni

Common Crawl rappresenta oggi una delle infrastrutture più potenti e, al tempo stesso, più controverse dell’ecosistema digitale. Nato come strumento a supporto della ricerca e della libera circolazione del sapere, si è progressivamente trasformato in una componente strategica dell’economia dei dati, utilizzata dai colossi dell’intelligenza artificiale per alimentare modelli linguistici di portata globale. La sua natura ibrida — tra archivio pubblico, laboratorio accademico e fonte industriale — solleva interrogativi profondi su chi controlli davvero la conoscenza digitale e con quali implicazioni etiche, legali ed economiche.

Da un lato, Common Crawl offre un accesso ineguagliabile alla memoria del Web e apre possibilità straordinarie in ambiti come la sicurezza informatica, l’analisi semantica e la ricerca OSINT.

Dall’altro, la sua stessa esistenza mette in discussione il confine tra open data e appropriazione: la disponibilità indiscriminata di contenuti, inclusi quelli protetti, alimenta un circolo vizioso in cui l’informazione libera rischia di diventare materia prima gratuita per sistemi che, a loro volta, producono valore chiuso e proprietario.

Questo articolo contiene link di affiliazione: acquisti o ordini effettuati tramite tali link permetteranno al nostro sito di ricevere una commissione nel rispetto del codice etico. Le offerte potrebbero subire variazioni di prezzo dopo la pubblicazione.

Ti consigliamo anche

Link copiato negli appunti