8

Vorrei poter ottenere file HTML statici relativamente aggiornati dall'enorme (anche se compresso) file di scarico XML di Wikipedia in inglese enwiki-latest-pages-articles.xml.bz2 scaricato dallo WikiMedia dump page. Sembra che ci siano parecchi strumenti disponibili, anche se la documentazione su di essi è piuttosto scarsa, quindi non so cosa facciano la maggior parte di loro o se sono aggiornati con gli ultimi dump. (Sono piuttosto bravo a costruire web crawler in grado di strisciare su pagine/file HTML relativamente piccoli, anche se sono pessimo con SQL e XML, e non mi aspetto di essere molto bravo nemmeno per almeno un altro anno.) Voglio essere in grado di eseguire la scansione di file HTML ottenuti da un dump offline senza ricorrere alla scansione di Wikipedia online.Ottenere file HTML statici da Wikipedia Scarico XML

Qualcuno sa di un buon strumento per ottenere file HTML statici dai recenti dump di Wikipedia su XML?

risposta

3

Primo, import the data. Quindi creare i file HTML con DumpHTML. Sebbene semplice in teoria, questo processo potrebbe essere complicato in pratica a causa del volume di dati coinvolti e DumpHTML è un po 'trascurato, quindi non esitate a ask for help.

+1

Inoltre, potrebbero essere necessarie settimane o mesi. Ho importato dump di Wikizionario diversi anni fa, che erano più piccoli di diversi ordini di grandezza, e ci sono voluti diversi giorni. Lo farà su una macchina molto robusta aiuterà. Mi chiedo se qualcuno possa dirci quanto tempo ci è voluto per importare. – hippietrail

+0

Il tempo di elaborazione sarà sicuramente una considerazione. Potrei essere in grado di ottenere una macchina desktop robusta ad un certo punto, anche se non so se sarebbe sufficiente per gestire la scala di cui stiamo parlando qui. (Mi chiedo se esiste una soluzione parallela.) So che sono disponibili dump HTML statici, anche se il più recente è del 2008, che è molto meno che ideale. –

+0

Che ne dici di rendere dinamicamente solo le parti necessarie per eseguire il rendering di una determinata pagina come parte di uno script in bundle con una distribuzione Ubuntu personalizzata offline? @hippietrail –