Sto cercando di usare Python e bella zuppa per estrarre la parte dei contenuti dei tag qui sotto:Get meta proprietà content tag con BeautifulSoup e Python
<meta property="og:title" content="Super Fun Event 1" />
<meta property="og:url" content="http://superfunevents.com/events/super-fun-event-1/" />
che sto ricevendo BeautifulSoup per caricare la pagina proprio bene e trova altre cose (questo prende anche l'id dell'articolo dal tag id nascosto nel sorgente), ma non conosco il modo corretto di cercare l'html e trovare questi bit, ho provato le varianti di find e findAll senza successo . I itera codice oltre un elenco di URL attualmente ...
#!/usr/bin/env python
# -*- coding: utf-8 -*-
#importing the libraries
from urllib import urlopen
from bs4 import BeautifulSoup
def get_data(page_no):
webpage = urlopen('http://superfunevents.com/?p=' + str(i)).read()
soup = BeautifulSoup(webpage, "lxml")
for tag in soup.find_all("article") :
id = tag.get('id')
print id
# the hard part that doesn't work - I know this example is well off the mark!
title = soup.find("og:title", "content")
print (title.get_text())
url = soup.find("og:url", "content")
print (url.get_text())
# end of problem
for i in range (1,100):
get_data(i)
Se qualcuno mi può aiutare a ordinare il bit per trovare il og: titolo e og: contenuti che sarebbero stati fantastici!
non c'è un built-in per i contenuti get, altro ripiego per impostazione predefinita? –
@ChristopheRoussy yup, questo è esattamente ciò che viene mostrato nella risposta. Inoltre, puoi rafforzare la presenza dell'attributo 'content' usando' soup.find ("meta", property = "og: title", content = True) '. Grazie. – alecxe