Il testo quasi HTML, assomiglia a: Simple<br> text <b>simple</b> text simple <BR><BR>text simple text
, mi piacerebbe analizzarlo e creare dom document. Ma il problema è con tag non chiusi, quando provo questo:Come parsing quasi-html text in java?
DocumentBuilder builder = DocumentBuilderFactory.newInstance().newDocumentBuilder();
InputSource source = new InputSource(new StringReader(
Document doc = builder.parse(source);
errore si verifica: org.xml.sax.SAXParseException; The element type "br" must be terminated by the matching end-tag
Non voglio sostituire tutte <br>
da <br></br>
, qualsiasi soluzione o consiglio?
Probabilmente non è possibile inserirlo in un DOM. Devi usare un parser HTML clemente come [jSoup] (http://jsoup.org/) - cercherà di risolvere il problema con l'HTML. Un po 'come farebbe un browser web. –
Penso che si possa fare con HTMLEditorKit ... – linski
@BoristheSpider non c'è bisogno di jSoup può essere fatto con Java standard, vedere la mia risposta. – linski