Sto utilizzando BeautifulSoup per analizzare alcuni contenuti da una pagina html.Suggerimenti su get_text() in BeautifulSoup
Posso estrarre dal contenuto HTML il contenuto desiderato (ad esempio il testo contenuto in un span
definito dalla classe class
).
result = mycontent.find(attrs={'class':'myclass'})
ho ottenere questo risultato:
<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>
Se cerco di estrarre il testo utilizzando:
result.get_text()
ottengo:
Lorem ipsumdolor sit amet,consectetur...
Come si può vedere quando il tag <br>
viene rimosso lì non c'è più spazio tra i contenuti e due parole sono concesse.
Come posso risolvere questo problema?
Utilizzare i 'contenuti', quindi sostituire
? – Floris
puoi mettere questo in un esempio in modo che io possa accettare la risposta? grazie – user601836
Su iPhone in questo momento. È necessario avvicinarsi a un computer per creare codice testato. Spero che qualcun altro creerà un esempio per te nel frattempo. – Floris