Analisi dell'HTML da una pagina Web

Devo estrarre alcune informazioni da una pagina Web e riformattarla per l'utente.Analisi dell'HTML da una pagina Web

Poiché la pagina Web è piuttosto regolare, ora utilizzo HttpClient per recuperare l'HTML come stringa e estraggo sottostringhe in determinate posizioni con i dati rilevanti.

In ogni caso, mi chiedo se c'è un modo migliore, forse un modo in cui l'HTML è consapevole. Come lo faresti?

Acclamazioni

fonte

2011-01-21 Mascarpone

possibile duplicato di [Java HTML Parsing] (http://stackoverflow.com/questions/238036/java-html-parsing) –

http://stackoverflow.com/questions/4623427/html-parsing-using-java –

http://stackoverflow.com/questions/4614211/java-html-parsing –

Idealmente, si dovrebbe utilizzare un vero e proprio HTML-parser. Ho usato Jsoup con successo in passato su Android:

http://jsoup.org/

fonte

2011-01-21 17:00:20 Computerish

Abbiamo utilizzato HttpUnit non farlo in passato.

fonte

2011-01-21 17:24:44 Speck

jsoup.org è migliore ma Cobra ha anche alcune funzionalità aggiuntive (CSS-aware e JavaScript-aware).

fonte

2011-01-21 18:09:49 bltc

personalmente mi piace usare Jericho parser: http://jericho.htmlparser.net/docs/index.html

E 'facile da usare, sta molto esempi nella pagina di progetto e si occupa buona con puro HTML (tag non chiusi, ecc).

fonte

2011-01-21 18:32:57 FolksLord

Analisi dell'HTML da una pagina Web

risposta

Problemi correlati