pQuery è una porta pragmatica del framework jQuery JavaScript in Perl che può essere utilizzata per lo screen scraping.Come faccio a far funzionare pQuery con HTML leggermente malformato?
pQuery molto sensibile a HTML non valido. Si consideri il seguente esempio:
use pQuery;
my $html_malformed = "<html><head><title>foo</title></head><body>bar</body></html>>";
my $page = pQuery($html_malformed);
my $title = $page->find("title");
print "The title is: ", $title->html, "\n";
pQuery non troverà il tag title nell'esempio di cui sopra a causa del doppio ">>
" nel codice HTML valido.
Per rendere le mie applicazioni basate su pQuery più tolleranti per l'HTML non valido Ho bisogno di pre-elaborare l'HTML pulendolo prima di passarlo a pQuery.
A partire dal frammento di codice sopra riportato, qual è il modo più puro e puro per pulire l'HTML per renderlo analizzato: abile da pQuery?
Scusa, ma ho bisogno di una soluzione perl pure. Ora è stato chiarito nella domanda. Grazie comunque per la risposta! :-) – knorv