2012-12-19 11 views
19

Sto provando a raschiare un sito web usando python e una bella zuppa. Ho riscontrato che in alcuni siti i collegamenti dell'immagine, sebbene visualizzati sul browser, non possono essere visualizzati nel codice sorgente. Tuttavia, utilizzando Chrome Inspect o Fiddler, possiamo vedere i codici corrispondenti. Quello che vedo nel codice sorgente è:Lettura di pagine web generate dinamicamente usando python

<div id="cntnt"></div> 

Ma su Chrome Ispezionare, riesco a vedere un sacco di codice CSS HTML \ generato all'interno di questa classe div. C'è un modo per caricare il contenuto generato anche all'interno di python? Sto usando il normale urllib in python e sono in grado di ottenere il sorgente ma senza la parte generata.

Non sono uno sviluppatore web quindi non sono in grado di esprimere il comportamento in termini migliori. Non esitate a chiarire se la mia domanda sembra vaga!

+7

Il contenuto del sito Web può essere generato dopo il caricamento tramite javascript, quindi fare riferimento a questa risposta -> http://stackoverflow.com/questions/8960288/get-page-generated-with-javascript-in-python – ppsreejith

+0

Can fornisci l'URL in questione? Aiuterà a diagnosticare – jdotjdot

risposta

5

il contenuto del sito può essere generato dopo il carico tramite JavaScript, Al fine di ottenere lo script generato tramite python si riferiscono a this answer

+2

Sebbene questo collegamento possa rispondere alla domanda, è meglio includere qui le parti essenziali della risposta e fornire il link per riferimento. Le risposte di solo collegamento possono diventare non valide se la pagina collegata cambia. - [Dalla recensione] (/ recensione/post di bassa qualità/18007370) – Rabbid76

Problemi correlati