2013-08-28 14 views
5

sto cercando di afferrare le immagini complete dei prodotti formato da hereBeautifulSoup - Come aprire le immagini e scaricarle

Il mio pensiero era:

  • seguire il link immagine
  • Scarica l'immagine
  • torna
  • Ripetere l'operazione per n + 1 immagini

So come aprire le miniature dell'immagine ma non come ottenere le immagini a dimensione intera. Qualche idea su come questo potrebbe essere fatto?

risposta

13

Questo ti porterà tutte URL delle immagini:

import urllib2 
from bs4 import BeautifulSoup 

url = "http://icecat.biz/p/toshiba/pscbxe-01t00een/satellite-pro-notebooks-4051528049077-Satellite+Pro+C8501GR-17732197.html" 
html = urllib2.urlopen(url) 
soup = BeautifulSoup(html) 

imgs = soup.findAll("div", {"class":"thumb-pic"}) 
for img in imgs: 
     print img.a['href'].split("imgurl=")[1] 

uscita:

http://www.toshiba.fr/contents/fr_FR/SERIES_DESCRIPTION/images/g1_satellite-pro-c850.jpg 
http://www.toshiba.fr/contents/fr_FR/SERIES_DESCRIPTION/images/g4_satellite-pro-c850.jpg 
http://www.toshiba.fr/contents/fr_FR/SERIES_DESCRIPTION/images/g2_satellite-pro-c850.jpg 
http://www.toshiba.fr/contents/fr_FR/SERIES_DESCRIPTION/images/g5_satellite-pro-c850.jpg 
http://www.toshiba.fr/contents/fr_FR/SERIES_DESCRIPTION/images/g3_satellite-pro-c850.jpg 

e questo codice è per scaricare e salvare quelle immagini:

import os 
import urllib 
import urllib2 
from bs4 import BeautifulSoup 

url = "http://icecat.biz/p/toshiba/pscbxe-01t00een/satellite-pro-notebooks-4051528049077-Satellite+Pro+C8501GR-17732197.html" 
html = urllib2.urlopen(url) 
soup = BeautifulSoup(html) 

imgs = soup.findAll("div", {"class":"thumb-pic"}) 
for img in imgs: 
     imgUrl = img.a['href'].split("imgurl=")[1] 
     urllib.urlretrieve(imgUrl, os.path.basename(imgUrl)) 
+0

Alcune delle altre gli articoli su questo sito non hanno immagini a piena risoluzione (le immagini sono state spostate o cancellate). Quindi, l'unica opzione è scaricare le miniature – ton1c

+0

Ciao ton1c hai una pagina di profilo di carriera? – Ninja2k

Problemi correlati