2011-08-17 17 views
5

Vorrei caricare una pagina web e salvarla utilizzando la riga di comando (voglio ottenere un comportamento simile a quello che otteniamo per la pagina di salvataggio come per una pagina completa in firefox o chrome.)Rendering di una pagina html e salvataggio tramite riga di comando

Ho provato a utilizzare wget e httrack, mi hanno fornito i file html correttamente. Ma nel caso di un html malformato il browser lo corregge mentre esegue il rendering e usa save come lì otteniamo l'html corretto ma questo non accade in caso di wget o htttrack.

C'è uno strumento che dovrebbe rendere la pagina e salvare la pagina insieme a tutte le immagini e il flash e tutte le altre cose in locale.

+0

Firefox può essere utilizzato dalla riga di comando. tuttavia non sono in grado di ottenere un'opzione per il salvataggio della pagina. Qualche idea...? –

risposta

2

Quando voglio salvare le pagine per l'utilizzo offline, utilizzo un plugin per Firefox chiamato "Scrapbook". Questo, ovviamente, non consente il tuo requisito della riga di comando. Ma se usi uno strumento come 'htmlunit' o qualcosa del genere, puoi guidare il browser Firefox per andare alla pagina che vuoi salvare.

0

C'è qualche sofisticato software disponibili, che fa esattamente questo: https://launchpad.net/shotfactory

+0

questo è usato per catturare lo screenshot che non è qualcosa che sto cercando –

1

Si potrebbe utilizzare curl o wget in combinazione con tidyhtml, cioè

curl http://stackoverflow.com > page.html 
    tidy page.html > page_clean.html 

Tidy dovrebbe essere in grado di convertire qualsiasi codice HTML valido a XTML valido.

+0

No, anche questo non mi aiuta .. –

1

Non sono riuscito a trovare nient'altro quindi alla fine ho aperto la pagina in firefox e ho fatto clic sul pulsante Salva come e salvandolo .. Scritto uno script per esso utilizzando firefox e xdotools per automatizzare l'intera operazione.

Grazie per tutto l'aiuto e le opinioni degli amici.

Problemi correlati