Codice molti parser. Fino ad ora, stavo usando il browser headless HtmlUnit per l'analisi e l'automazione del browser.Quale parser HTML è il migliore?
Ora, voglio separare entrambi i compiti.
Poiché l'80% del mio lavoro riguarda solo l'analisi, voglio utilizzare un parser HTML leggero perché richiede molto tempo in HtmlUnit per caricare prima una pagina, quindi ottenere il codice sorgente e quindi analizzarlo.
Voglio sapere quale parser HTML è il migliore. Il parser sarebbe meglio se fosse vicino al parser HtmlUnit.
EDIT:
Di meglio, voglio almeno le seguenti caratteristiche:
- velocità
- facilità per individuare qualsiasi HtmlElement dal suo "id" o "nome" o "tipo di tag".
Sarebbe ok per me se non pulisce il codice HTML sporco. Non ho bisogno di pulire qualsiasi sorgente HTML. Ho solo bisogno di un modo più semplice per spostarmi tra HtmlElements e raccogliere dati da loro.
Come intendete "migliore"? Intendi velocità, facilità di transizione dall'attuale implementazione, aderenza agli standard W3C, qualcos'altro che non ho pensato? La tua domanda implica velocità, ma implica anche il tempo di transizione dello sviluppo.Alcuni chiarimenti possono aiutare gli altri a raccomandare dei buoni parser che si adattino meglio alle tue esigenze. – aperkins
La tua frase 'I code a molti parser' non sembra corrispondere alla domanda. Vuoi dire 'ho bisogno di usare parser html molto?' – blank
Penso che questa domanda sia abbastanza specifica da essere esentata dal motivo di chiusura "non costruttivo". –