2011-01-21 32 views
6

Devo estrarre alcune informazioni da una pagina Web e riformattarla per l'utente.Analisi dell'HTML da una pagina Web

Poiché la pagina Web è piuttosto regolare, ora utilizzo HttpClient per recuperare l'HTML come stringa e estraggo sottostringhe in determinate posizioni con i dati rilevanti.

In ogni caso, mi chiedo se c'è un modo migliore, forse un modo in cui l'HTML è consapevole. Come lo faresti?

Acclamazioni

+0

possibile duplicato di [Java HTML Parsing] (http://stackoverflow.com/questions/238036/java-html-parsing) –

+0

http://stackoverflow.com/questions/4623427/html-parsing-using-java –

+0

http://stackoverflow.com/questions/4614211/java-html-parsing –

risposta

7

Idealmente, si dovrebbe utilizzare un vero e proprio HTML-parser. Ho usato Jsoup con successo in passato su Android:

http://jsoup.org/

1

Abbiamo utilizzato HttpUnit non farlo in passato.

1

jsoup.org è migliore ma Cobra ha anche alcune funzionalità aggiuntive (CSS-aware e JavaScript-aware).

Problemi correlati