Sto usando seguente codice per salvare pagina web utilizzando Python:Come salvare "completa pagina web" non solo HTML di base utilizzando Python
import urllib
import sys
from bs4 import BeautifulSoup
url = 'http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html'
f = urllib.urlretrieve(url,'test.html')
Problema: salva questo codice html come HTML di base senza javascript, immagini ecc . voglio salvare pagina web più completo (come abbiamo opzione nel browser)
Aggiornamento: sto usando seguente codice ora per salvare tutte le JS/immagini/files css di webapge in modo che possa essere salvato come completa la pagina web ma il mio output html è ancora sempre salvato come HTML di base:
import pycurl
import StringIO
c = pycurl.Curl()
c.setopt(pycurl.URL, "http://www.vodafone.de/privat/tarife/red-smartphone-tarife.html")
b = StringIO.StringIO()
c.setopt(pycurl.WRITEFUNCTION, b.write)
c.setopt(pycurl.FOLLOWLOCATION, 1)
c.setopt(pycurl.MAXREDIRS, 5)
c.perform()
html = b.getvalue()
#print html
fh = open("file.html", "w")
fh.write(html)
fh.close()
Quindi dovresti scrivere codice per analizzare l'HTML, prendere tutte le risorse collegate e scaricarle singolarmente, proprio come fa un browser. – Amber
usando una bella zuppa posso farlo? –
Prova [Scrapy] (http://scrapy.org/), un framework per la demolizione del web in Python portatile open source – Abhijit