Per favore, sopportami. Sono abbastanza nuovo in Python - ma mi diverto molto. Sto cercando di codificare un web crawler che striscia attraverso i risultati elettorali dell'ultimo referendum in Danimarca. Sono riuscito a estrarre tutti i collegamenti rilevanti dalla pagina principale. E ora voglio che Python segua ognuno dei 92 link e raccolga 9 pezzi di informazione da ognuna di quelle pagine. Ma sono così bloccato. Spero che tu possa darmi un suggerimento.Web crawler - seguenti link
Ecco il mio codice:
import requests
import urllib2
from bs4 import BeautifulSoup
# This is the original url http://www.kmdvalg.dk/
soup = BeautifulSoup(urllib2.urlopen('http://www.kmdvalg.dk/').read())
my_list = []
all_links = soup.find_all("a")
for link in all_links:
link2 = link["href"]
my_list.append(link2)
for i in my_list[1:93]:
print i
# The output shows all the links that I would like to follow and gather information from. How do I do that?
Puoi menzionare più informazioni su 9 pezzi che vuoi inserire all'interno di ciascun link? – titipata
Wow - voi ragazzi siete fantastici !! Dovrò passare un po 'di tempo a cercare di capire le tue soluzioni. Tornerò non appena li capirò. MOLTE GRAZIE! – Metods
@titipat: Sì. Dai un'occhiata a questo sito secondario. Voglio afferrare "stemmeberettigede/numero di persone che possono votare", "Optalte stemmer/voti contati", "JA-stemmer/Persone che votano sì", "NEJ-stemmer/persone che hanno votato no", "Blanke stemmer/blank voti "," Ugyldige stemmer/voti invalidi "e il nome del comune (Assenskredsen in questo caso) – Metods