Sto provando a raschiare un sito web usando python e una bella zuppa. Ho riscontrato che in alcuni siti i collegamenti dell'immagine, sebbene visualizzati sul browser, non possono essere visualizzati nel codice sorgente. Tuttavia, utilizzando Chrome Inspect o Fiddler, possiamo vedere i codici corrispondenti. Quello che vedo nel codice sorgente è:Lettura di pagine web generate dinamicamente usando python
<div id="cntnt"></div>
Ma su Chrome Ispezionare, riesco a vedere un sacco di codice CSS HTML \ generato all'interno di questa classe div. C'è un modo per caricare il contenuto generato anche all'interno di python? Sto usando il normale urllib in python e sono in grado di ottenere il sorgente ma senza la parte generata.
Non sono uno sviluppatore web quindi non sono in grado di esprimere il comportamento in termini migliori. Non esitate a chiarire se la mia domanda sembra vaga!
Il contenuto del sito Web può essere generato dopo il caricamento tramite javascript, quindi fare riferimento a questa risposta -> http://stackoverflow.com/questions/8960288/get-page-generated-with-javascript-in-python – ppsreejith
Can fornisci l'URL in questione? Aiuterà a diagnosticare – jdotjdot