Wikipedia, come scaricare l'intera enciclopedia con Kiwix

Quanto pesano tutti i contenuti pubblicati su Wikipedia? Com'è possibile scaricarli con Kiwix, in modo da averli in locale e utilizzarli, ad esempio, per addestrare un modello generativo.
Wikipedia, come scaricare l'intera enciclopedia con Kiwix

Wikipedia si autodefinisce come un’enciclopedia libera per sottolineare diversi concetti chiave legati alla sua natura e alla sua missione. È accessibile da chiunque disponga di una connessione Internet, senza costi. Gli utenti di Wikipedia hanno il diritto di modificare e migliorare gli articoli grazie a un modello di editing collaborativo che favorisce un continuo sviluppo e  la condivisione di informazioni aggiornate.

I contenuti di Wikipedia sono rilasciati con licenze libere, come la licenza Creative Commons Attribution-ShareAlike. Ciò significa che gli utenti possono utilizzare, condividere e modificare i lavori originariamente ospitati su Wikipedia. È possibile sfruttarli per qualsiasi scopo, a patto di attribuire la fonte e condividere le opere derivate usando la stessa licenza.

Le linee guida di Wikipedia impongono inoltre di mantenere un punto di vista neutrale in tutti gli articoli. I contenuti devono essere scritti in modo imparziale e non devono favorire o avversare alcuna posizione, persona o gruppo.

Quanto pesa l’intera Wikipedia e come scaricarla in locale

Vi siete mai chiesti quando “pesano” le informazioni pubblicate su Wikipedia? Ad oggi circa 102 GB oppure 60 GB se si escludono le immagini.

Grazie alla licenza così permissiva che contraddistingue l’enciclopedia libera, chiunque può quindi scaricare il contenuto della piattaforma e di altri servizi simili, a patto che l’operazione sia espressamente consentita. È Wikipedia stessa che spiega com’è possibile farlo.

Una volta scaricata l’intera enciclopedia, è possibile consultarla anche in assenza di connessione Internet. Il vantaggio, inoltre, è che tutte le informazioni acquisite sui propri sistemi possono ad esempio riutilizzate per addestrare un modello generativo basato sull’intelligenza artificiale.

Un’applicazione come Kiwix, compatibile con Windows, macOS, Linux, Android e iOS (ci sono anche le versioni per Raspberry Pi, per i principali browser Web e un modulo server), non soltanto consente di sovrintendere l’operazione di download di Wikipedia ma permette anche di prelevare specifiche sezioni dell’enciclopedia. Si può ad esempio chiedere di scaricare gli articoli più consultati (1 milione di oggetti) limitando le dimensioni del download a 44 GB, solo i contenuti che trattano argomenti matematici (2,6 GB) e via dicendo.

Per avviare il download, basta avviare Kiwix, scegliere la voce Library quindi Categories e infine Wikipedia. La stessa operazione, comunque, è effettuale con tanti altri siti Web.

Ti consigliamo anche

Link copiato negli appunti