Recentemente ho sviluppato web scrapers in python con BeautifulSoup. Ora voglio sapere quali librerie sono le più preferite in Java. Ho fatto qualche ricerca, principalmente vedo JTidy e JSoup. Qual'è la differenza tra loro?JTidy o Jsoup per Java
5
A
risposta
11
JTidy
è più comunemente usato per ordinato il codice HTML, che è, per correzione malformati o difettoso HTML, come i tag non chiusi, per esempio, da <div><span>text</div>
a <div><span>text</span></div
.
JSoup
, d'altra parte, fornisce un'API in piena regola per analizzare HTML e a estratto parti di esso. Ti permette di usare jQuery come selectors per trovare elementi, o DOM
methods, equivalenti a quelli che usi con JavaScript, come ad esempio getElementById
. Direi che JSoup è davvero l'equivalente di BeautifulSoup di Java.
Ad esempio, per estrarre il primo paragrafo di un articolo di Wikipedia con JSoup, è possibile utilizzare il seguente:
String url = "http://en.wikipedia.org/wiki/Potato";
Document doc = Jsoup.connect(url).get();
Elements paragraphs = doc.select(".mw-content-ltr p");
String firstParagraph = paragraphs.first().text();
O per estrarre il titolo da questa stessa domanda:
Document doc = Jsoup.connect("http://stackoverflow.com/questions/12439078/jtidy-or-jsoup-for-java").get();
String question = doc.select("#question-header a").text(); // JTidy or Jsoup for Java
Una bella API, eh? :-)
Problemi correlati
- 1. Uso corretto di JTidy per purificare l'HTML
- 2. parser Java Jsoup Java: esecuzione di eventi javascript
- 3. Selezionare per "nome" in JSoup
- 4. jTidy tag abbastanza stampa personalizzato HTML
- 5. Jsoup get URL reindirizzato
- 6. Selenium vs performance Jsoup
- 7. UserAgent in JSOUP?
- 8. Ottieni offset caratteri per elementi in jsoup
- 9. Jsoup come parser per C++/C?
- 10. Ottieni elemento per classe in JSoup
- 11. Jsoup - estrazione di testo
- 12. In che modo JTIdy rende i documenti HTML ben formati?
- 13. JSoup Remove Elements
- 14. Errore Jsoup 404
- 15. jsoup supporta xpath?
- 16. Utilizzo di JSoup per analizzare i risultati di Google
- 17. Un modo per stimare o prevedere il tempo di elaborazione Jsoup di un blocco di HTML?
- 18. Crawler4j vs. Jsoup per le pagine che scorrono e analizzano in Java
- 19. JSoup: Richiesta di risposta JSON
- 20. Come integrare Jsoup con WebDriver?
- 21. Accesso in LinkedIn con JSoup
- 22. analisi con jsoup tiri errore (NetworkOnMainThreadException)
- 23. Come pubblicare file usando JSoup?
- 24. Errore Jsoup http durante il recupero dell'URL
- 25. Jsoup seleziona il testo dopo il tag
- 26. Rimozione attributi Jsoup su tag HTML
- 27. Libreria Java open source per la convalida HTML5?
- 28. Utilizzo di JSoup per estrarre il contenuto della tabella HTML
- 29. jsoup modalità rilassata Whitelist troppo severo per editor WYSIWYG
- 30. come utilizzare jsoup per riordinare il codice HTML
correlati: http://stackoverflow.com/questions/5183748/tagsoup-vs-jsoup-vs-html-parser-vs-hotsax-vs – Vadzim