Ecco il codice che ho:Come faccio a garantire che re.findall() si fermi nel posto giusto?
a='<title>aaa</title><title>aaa2</title><title>aaa3</title>'
import re
re.findall(r'<(title)>(.*)<(/title)>', a)
Il risultato è:
[('title', 'aaa</title><title>aaa2</title><title>aaa3', '/title')]
Se ho mai progettato un crawler per farmi titoli dei siti web, che potrebbe finire con qualcosa di simile a questo piuttosto di un titolo per il sito web.
La mia domanda è, come posso limitare findall
a un singolo <title></title>
?
È possibile utilizzare BeautifulSoup per analizzare HTML invece di Regex – Achrome
http://stackoverflow.com/a/1732454/193892 –