Ottieni offset caratteri per elementi in jsoup

Ho bisogno di mappare elementi jsoup su offset di caratteri specifici nell'HTML di origine. In altre parole, se ho HTML che assomiglia a questo:Ottieni offset caratteri per elementi in jsoup

Hello <br/> World

ho bisogno di sapere che "Ciao" inizia all'offset 0 e ha una lunghezza di 6 caratteri, <br/> inizia all'offset 6 e ha una lunghezza di 5 caratteri, ecc.

Non riesco a trovare un getter nell'elemento javadoc che restituisce questa informazione. Può essere recuperato?

fonte

2012-07-08 ccleve

Hai trovato una soluzione a questo che non ha comportato la scrittura della tua grammatica? – elaRosca

No. Sto ancora usando jflex. – ccleve

Non credo che Jsoup abbia questa funzionalità. Questa domanda sembra più vicina all'analisi lessicale rispetto all'analisi HTML.

Scriverò una grammatica, quindi scriverò un lexer contro quella grammatica che dovrebbe tokenizzare l'HTML e fornire gli offset che stai cercando.

Innanzitutto, analizzare il documento con Jsoup per verificare che sia un HTML valido.

Quindi, analizzare il documento in modo lessicale con una grammatica. Una grammatica potrebbe essere simile:

Document := {optional-opening-tag} | {literal} {optional-opening-tag} | {optional-closing-tag} 

optional-opening-tag := ["<" {literal} ">" {optional-opening-tag}|{literal} ] | "" 

optional-closing-tag := "</ {literal} ">" | "" 

literal := any string of characters not beginning with whitespace, or containing "<"

Inserire ogni token che si trova in un oggetto che memorizza il token, l'indice del primo carattere, e la lunghezza.

fonte

2013-02-25 00:10:36

Sì, questa è la risposta giusta. Avevo già scritto un lexer usando JFlex, e funziona, e lo sto ancora usando, ma preferirei non mantenerlo. Stavo cercando di sbarazzarmi del codice. – ccleve

Ottieni offset caratteri per elementi in jsoup

risposta

Problemi correlati