Ho un articolo di Wikipedia e voglio recuperare le prime linee z (o i primi x caratteri, o le prime parole y, non importa) dall'articolo.Ottieni le prime righe di Wikipedia Articolo
Il problema: posso ottenere sia la fonte Wiki-Text (tramite API) o HTML analizzata (via HTTP di richiesta diretta, eventualmente dal print-versione), ma come posso trovare le prime righe visualizzate? Normalmente la fonte (sia html che wikitext) inizia con le informazioni-box e le immagini e il primo vero testo da visualizzare è da qualche parte nel codice.
Ad esempio: Albert Einstein on Wikipedia (versione di stampa). Cerca nel codice, la prima riga di testo reale "Albert Einstein (pronunciato/ælbərt aɪnstaɪn /; tedesco: [albɐt aɪ̯nʃtaɪ̯n]; 14 marzo 1879-18 aprile 1955) era un fisico teorico." non è all'inizio. Lo stesso vale per lo Wiki-Source, inizia con la stessa info-box e così via.
Quindi, come realizzeresti questo compito? Il linguaggio di programmazione è java, ma questo non dovrebbe importare.
Una soluzione che mi è venuta in mente era utilizzare una query xpath ma questa query sarebbe piuttosto complicata per gestire tutti i casi limite. [aggiornamento] Non è stato così complicato, vedi la mia soluzione qui sotto! [/ update]
Grazie!
"Abbiamo pensato che invece di compilazione di un database di informazioni, il sistema sarà solo recuperare il contenuto da un database un'enciclopedia pubblico, come Wikipedia" - http://www.fryan0911.com/2009 /05/how-to-retrieve-content-from-wikipedia.html –
KMan: Questo richiama solo la fonte Wiki dell'articolo. Il problema indicato dall'OP si applica ancora. – Joey