2011-10-23 15 views
9

Sono appena stato presentato alle meraviglie di MozRepl utilizzato in combinazione con il WWW :: Mechanize :: Firefox di Perl, e stavo cercando di capire come usarlo per eseguire la scansione di GWT pagine (es .: https://www.google.com/offers/home#!details/4bc7fd6bd3feb311/XYW81TXGLA88TR42)Ottenere il rendering HTML con MozRepl e Mechanize :: Firefox

Quello che voglio veramente è l'html renderizzato, non l'html effettivo. Gradirei davvero un esempio di come otterrei questo.

+0

Sembra che sia possibile eseguire il rendering delle parti della pagina solo facendo, ad esempio: $ mech-> xpath ('// * [@ id = "goh-content-container"]', uno => 1) -> {} innerHTML; Stranamente, questo non sembra funzionare in modo coerente. Occasionalmente non produrrà nulla e altre volte produrrà l'HTML. Qualche idea sul perché non fornisce costantemente l'output? –

+0

Ulteriori informazioni: quando eseguo un singolo crawler sembra uscita in modo coerente, ma se ho più interazioni con MozRepl, l'output sembra essere prodotto in modo meno coerente. Funzionando su Ubuntu 11.04 con Firefox 7.0.1 –

risposta

2

Ho deciso di utilizzare il fantastico PhantomJS per completare il lavoro. È incredibilmente facile usare Phantom come strumento lato server per ottenere l'HTML reso di una pagina web dinamica.

Problemi correlati