Sto usando JTidy v. R938. Sto usando questo codice per tentare di ripulire una pagina ...In che modo JTIdy rende i documenti HTML ben formati?
final Tidy tidy = new Tidy();
tidy.setQuiet(false);
tidy.setShowWarnings(true);
tidy.setShowErrors(0);
tidy.setMakeClean(true);
Document document = tidy.parseDOM(conn.getInputStream(), null);
Ma quando sono parse questo URL - http://www.chicagoreader.com/chicago/EventSearch?narrowByDate=This+Week&eventCategory=93922&keywords=&page=1, le cose non sono sempre pulita. Ad esempio, i META tag sulla pagina, come
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
rimangono come
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
invece di avere un tag "</META >" o che appare come "< META http-equiv =" Content -Tipo "content =" text/html; charset = UTF-8 "/ >". Lo confermo emettendo JTidy org.w3c.dom.Document come stringa.
Cosa posso fare per fare in modo che JTidy pulisca veramente la pagina, cioè la forma bene? Mi rendo conto che ci sono altri strumenti là fuori, ma questa domanda riguarda specificamente l'uso di JTIdy.
mai trovare una soluzione a questo? –