Trova link specifico w/beautifulsoup

Ciao Non riesco a capire come trovare i collegamenti che iniziano con un determinato testo per la vita di me. findall ('a') funziona bene, ma è troppo. Voglio solo fare un elenco di tutti i collegamenti che iniziano con http://www.nhl.com/ice/boxscore.htm?id=Trova link specifico w/beautifulsoup

Qualcuno può aiutarmi?

La ringrazio molto

fonte

2011-10-11 Jen Scott

Prima impostare un documento di prova e di aprire il parser con BeautifulSoup:

>>> from BeautifulSoup import BeautifulSoup 
>>> doc = '<html><body><div><a href="something">yep</a></div><div><a href="http://www.nhl.com/ice/boxscore.htm?id=3">somelink</a></div><a href="http://www.nhl.com/ice/boxscore.htm?id=7">another</a></body></html>' 
>>> soup = BeautifulSoup(doc) 
>>> print soup.prettify() 
<html> 
<body> 
    <div> 
    <a href="something"> 
    yep 
    </a> 
    </div> 
    <div> 
    <a href="http://www.nhl.com/ice/boxscore.htm?id=3"> 
    somelink 
    </a> 
    </div> 
    <a href="http://www.nhl.com/ice/boxscore.htm?id=7"> 
    another 
    </a> 
</body> 
</html>

Avanti, siamo in grado di cercare tutti i <a> tag con un attributo href inizia con http://www.nhl.com/ice/boxscore.htm?id=. È possibile utilizzare un'espressione regolare per esso:

>>> import re 
>>> soup.findAll('a', href=re.compile('^http://www.nhl.com/ice/boxscore.htm\?id=')) 
[<a href="http://www.nhl.com/ice/boxscore.htm?id=3">somelink</a>, <a href="http://www.nhl.com/ice/boxscore.htm?id=7">another</a>]

fonte

2011-10-11 21:35:44 jterrace

Wow, grazie. Immagino che la documentazione di beautifulsoup presupponga una fluenza nella regex. Grazie per avermi mostrato che –

@JenScott Se questo ha risposto alla tua domanda, dovresti accettarlo. – serk

Buono ma cosa succede se il nome dell'attributo è chiamato "classe"? – Wajih

Potrebbe non essere necessario BeautifulSoup poiché la ricerca è specifico

>>> import re 
>>> links = re.findall("http:\/\/www\.nhl\.com\/ice\/boxscore\.htm\?id=.+", str(doc))

fonte

2016-05-02 16:05:36 Emma

Trova link specifico w/beautifulsoup

risposta

Problemi correlati