Come faccio a garantire che re.findall() si fermi nel posto giusto?

Ecco il codice che ho:Come faccio a garantire che re.findall() si fermi nel posto giusto?

a='<title>aaa</title><title>aaa2</title><title>aaa3</title>' 
import re 
re.findall(r'<(title)>(.*)<(/title)>', a)

Il risultato è:

[('title', 'aaa</title><title>aaa2</title><title>aaa3', '/title')]

Se ho mai progettato un crawler per farmi titoli dei siti web, che potrebbe finire con qualcosa di simile a questo piuttosto di un titolo per il sito web.

La mia domanda è, come posso limitare findall a un singolo <title></title>?

fonte

2013-07-20 Anonymous

È possibile utilizzare BeautifulSoup per analizzare HTML invece di Regex – Achrome

http://stackoverflow.com/a/1732454/193892 –

re.findall(r'<(title)>(.*?)<(/title)>', a)

Aggiungi un ? dopo la *, quindi sarà non avidi.

fonte

2013-07-20 19:16:32 zhangyangyu

Uso re.search invece di re.findall se desideri solo una partita:

>>> s = '<title>aaa</title><title>aaa2</title><title>aaa3</title>' 
>>> import re 
>>> re.search('<title>(.*?)</title>', s).group(1) 
'aaa'

Se si voleva tutti i tag, allora si dovrebbe pensare di cambiare per essere non-avido (vale a dire - .*?):

print re.findall(r'<title>(.*?)</title>', s) 
# ['aaa', 'aaa2', 'aaa3']

Ma davvero considerare l'utilizzo di BeautifulSoup o lxml o simili per analizzare HTML.

fonte

2013-07-20 19:16:56

E 'vero che l'utilizzo di regexen per analizzare HTML o XML di solito è una cattiva idea. –

Utilizzare una ricerca non avido, invece:

r'<(title)>(.*?)<(/title)>'

Il punto interrogativo dice per abbinare il minor numero possibile di caratteri. Ora il tuo findall() restituirà ciascuno dei risultati che desideri.

http://docs.python.org/2/howto/regex.html#greedy-versus-non-greedy

fonte

2013-07-20 19:21:59

Sarà molto più semplice utilizzando il modulo BeautifulSoup.

https://pypi.python.org/pypi/beautifulsoup4

fonte

2014-05-21 08:55:03 Codengine

Come faccio a garantire che re.findall() si fermi nel posto giusto?

risposta

Problemi correlati