negozi MediaWiki file di dati in due o tre posti, a seconda di come si contano:
I metadati effettivo per le versioni di file corrente viene memorizzato nella tabella image
. Questo è probabilmente ciò che desideri principalmente; troverai l'ultima versione di it.wikipedia dump di esso here.
I dati per le vecchie revisioni dei file sostituiti vengono spostati nella tabella oldimage
, che ha fondamentalmente la stessa struttura della tabella image
. Anche questa tabella viene scaricata, l'ultima è here.
Infine, ogni file (normalmente) corrisponde a una pagina wiki piuttosto comune nel namespace 6 (File:
). Troverai il testo di questi nei dump XML, come per qualsiasi altra pagina.
Oh, e il motivo per cui non sta trovando quei file si è collegato al nella Wikipedia inglese discariche è che sono dal repository condiviso a Wikimedia Commons. Li troverai invece nello Commons data dumps.
Per quanto riguarda il download dei file effettivi, here's the (apparently) official documentation. Per quanto posso dire, tutto ciò che intendono per "scaricare Bulk è attualmente (a partire da settembre 2012) disponibile da specchi, ma non offerto direttamente dai server Wikimedia." è che se vuoi tutte le immagini in un tarball, dovrai usare uno specchio. Se stai solo tracciando un numero relativamente piccolo di milioni di immagini su Wikipedia e/o Commons, dovrebbe essere opportuno utilizzare direttamente i server Wikimedia.
Ricorda solo di esercitare la cortesia di base: invia un user-agent string identificandoti e non colpire troppo i server. In particolare, consiglierei di eseguire i download in modo sequenziale, in modo da iniziare a scaricare il file successivo solo dopo aver completato il precedente.Non solo è più facile da implementare rispetto al download parallelo, ma garantisce che non si accumuli più della condivisione della larghezza di banda e che la velocità di download si adegui più o meno automaticamente al carico del server.
Ps. Se si scaricano i file da uno specchio o direttamente dai server Wikimedia, la vostra intenzione di bisogno di capire quale directory sono in tipico URL di file di Wikipedia simile a questa:.
http://upload.wikimedia.org/wikipedia/en/a/ab/File_name.jpg
dove la parte "wikipedia/en
" identifica il progetto e la lingua di Wikimedia (per ragioni storiche, Commons è elencato come "wikipedia/commons
") e the "a/ab
" part è dato dalle prime due cifre esadecimali dell'hash MD5 del nome file in UTF-8 (poiché sono codificati nei dump del database).
fonte
2013-04-05 22:12:40
Ecco un esempio di una seconda immagine che presenta gli stessi sintomi. Ho provato un sacco e non ho ancora trovato un singolo che sia in disuso. http://en.wikipedia.org/wiki/File:Aerial-SanAndreas-CarrizoPlain.jpg –