Desidero scrivere un web crawler in grado di interpretare JavaScript. Fondamentalmente è un programma in Java o PHP che accetta un URL come input e genera l'albero DOM che è simile all'output nella finestra Firebug HTML. L'esempio migliore è Kayak.com in cui non è possibile visualizzare il DOM risultante visualizzato sul browser quando si "visualizza l'origine", ma è possibile salvare l'HTML risultante tramite Firebug.Web crawler in grado di interpretare JavaScript
Come faccio a fare questo? Quali strumenti esistono che potrebbero aiutarmi?
Potresti usare Webkit. – Seth
Freddo. Qual è la tua domanda? –
Sto cercando di scrivere un web crawler in grado di eseguire codice JavaScript sulla pagina che sto cercando di gattonare. Ad esempio, alcune pagine hanno il codice JavaScript per popolare la pagina con i dati di una chiamata AJAX o da un array JavaScript. Se apri queste pagine in FireFox e fai clic su Visualizza -> 'Origine pagina', non vedi il DOM HTML completo che vedi nella finestra del browser.Ma se hai installato il plugin firebug, puoi aprire firebug, fare clic sulla scheda HTML, fare clic con il pulsante destro su nella finestra di debug e fare clic su "Copia HTML" e incollarlo in un editor di testo, puoi vedere il DOM HTML generato dal codice JavaScript . – user320662