Ho un progetto in cui raccolgo tutti gli articoli di Wikipedia appartenenti a una particolare categoria, estraggo la discarica da Wikipedia e la inserisco nel nostro db.Esiste un parser/modo disponibile per analizzare i file di dump di Wikipedia usando Python?
Quindi dovrei analizzare il file di dump di Wikipedia per fare il lavoro. Abbiamo un parser efficiente per fare questo lavoro? Sono uno sviluppatore Python. Quindi preferisco qualsiasi parser in python. Se non ne suggerisci uno, cercherò di scriverne una porta in python e contribuirò al web, così le altre persone ne faranno uso o almeno lo proveranno.
Quindi tutto ciò che voglio è un parser python per analizzare i file di dump di Wikipedia. Ho iniziato a scrivere un parser manuale che analizza ciascun nodo e ottiene il risultato.