Python ha modo di scaricare l'intera pagina html e il suo contenuto (immagini, css) nella cartella locale dato un URL. E l'aggiornamento del file html locale per selezionare i contenuti localmente.Scarica la pagina html e il suo contenuto
risposta
È possibile utilizzare il modulo urllib
per scaricare singole URL, ma questo sarà solo restituire i dati. Non analizzerà l'HTML e scaricherà automaticamente cose come file e immagini CSS.
Se si desidera scaricare la pagina "intera", è necessario analizzare l'HTML e trovare le altre cose che è necessario scaricare. È possibile utilizzare qualcosa come Beautiful Soup per analizzare il codice HTML che si recupera.
This question ha un codice di esempio che fa esattamente questo.
È possibile utilizzare l'urlib:
import urllib.request
opener = urllib.request.FancyURLopener({})
url = "http://stackoverflow.com/"
f = opener.open(url)
content = f.read()
Quello che stai cercando è uno strumento di mirroring. Se ne vuoi uno in Python, PyPI elenca spider.py ma non ho esperienza con esso. Altri potrebbero essere migliori ma non lo so - io uso 'wget', che supporta getting the CSS e le immagini. Questo fa probabilmente quello che volete (citando da the manual)
recuperare solo una pagina HTML, ma fare in modo che tutti gli elementi necessari per la pagina da visualizzare, come ad esempio immagini in linea e di stile esterno lenzuola , vengono anche scaricati. Rendi anche sicuro che la pagina scaricata faccia riferimento ai collegamenti scaricati.
wget -p --convert-links http://www.server.com/dir/page.html
- 1. Selenium scarica la pagina full html
- 2. Pagina HTML che salva il suo contenuto, sostituendo il file HTML stesso
- 3. Scarica il contenuto della pagina utilizzando AJAX jQuery
- 4. Prevenire la stampa di un div e il suo contenuto
- 5. iphone uiwebview scarica la pagina completa con CSS e immagini
- 6. Scarica html in python?
- 7. Come posso fare in modo che il popup modale scorra il suo contenuto con la pagina?
- 8. php: scarica il contenuto variabile come file
- 9. Python segue i reindirizzamenti e poi scarica la pagina?
- 10. index.php e protezione del suo contenuto
- 11. ruby on rails regular expression per rimuovere i tag html e il suo contenuto dal testo
- 12. Come posso rimuovere un elemento html e il suo contenuto utilizzando RegEx
- 13. ScriptManager nella pagina master e il contenuto della pagina
- 14. Come rendere la clip Canvas il suo contenuto in Flex?
- 15. .gitignore whitelist sulla directory e il suo contenuto
- 16. UITextView non aggiorna il suo contenuto Dimensione
- 17. DataGridComboBoxColumn perde il suo contenuto quando la selezione cambia
- 18. Stampa la struttura di un array senza il suo contenuto?
- 19. Crea immagine bitmap da EditText e il suo contenuto
- 20. _UIReplicantView e snapshotViewAfterScreenAggiorna come ottenere il suo contenuto?
- 21. Scarica CSS dalla pagina web
- 22. Scarica l'applet java dalla pagina web
- 23. C'è un listener per quando WebView mostra il suo contenuto?
- 24. Cercando di inserire un contenuto html (googlemap) tra un'intestazione e un piè di pagina - CSS - HTML
- 25. HTML/CSS: perché il corpo non si sta estendendo al suo contenuto?
- 26. controllare il contenuto iframe con javascript/html
- 27. Come ottenere il contenuto html da UIWebView?
- 28. Far scorrere il contenuto/transizione di pagina
- 29. Come rendere il contenuto html con jinja usando la fiaschetta?
- 30. Sostituire il contenuto della finestra di _top con contenuto di iframe senza ricaricare la pagina
Che solo sembra scaricare una pagina tenendo conto codici di risposta HTTP; in realtà non scarica le risorse della pagina a meno che manchi qualcosa. – bdeniker