2011-10-24 15 views
7

Vorrei eseguire un crawler in grado di gestire javascript creato html in un ambiente senza un server X. So che posso eseguire Firefox in uno stato senza testa sotto xvfb, e so come installare MozRepl su Firefox e interagire con esso utilizzando WWW :: Mechanize quando ho il browser effettivo e posso scaricare e configurare il modulo.Configurazione di Firefox headless con MozRepl

Quello che non so come fare è installare MozRepl su Firefox in un ambiente in cui non ho un server X per semplificare l'installazione del modulo. Qualsiasi aiuto è apprezzato.

risposta

3

Ci sono un certo numero di opzioni per html headless + javascript (grazie principalmente al nuovo giocattolo di google Node.js utilizzato nel browser Chrome) a seconda della lingua che si desidera utilizzare, ma sfortunatamente nessuno di quelli che conosco sono basati su Firefox - - c'era crowbar, ma appare non aggiornato dal 2008.

Basare tale software su firefox è diventato meno fattibile ora che firefox ha iniziato a integrare gecko più strettamente con il front-end del browser.

Per quanto riguarda node.js, non so molto circa le offerte Perl, ma qui ci sono alcuni degli altri:

  • zombie (javascript)
  • mink (PHP 5.3) (usa zombie come un back-end)

E poi ci sono alcune opzioni non-nodo così:

  • phantomjs (javascript) (usa un webkit di back-end, che potrebbe essere necessario installare X)
  • htmlunit (java)
  • akephalos (ruby) (utilizza un HtmlUnit back-end)

Credo che ci sia anche un'interfaccia python per node.js (anche se se implementa un ambiente browser, non lo so), ed è probabile che si lavori anche nello spazio perl con il nodo.

+0

Phantomjs sembra fantastico. Grazie per il puntatore –

Problemi correlati