tag html analisi con Python

mi è stato dato un url e voglio per estrarre il contenuto del tag <BODY> dall'URL. Sto usando Python3. Mi sono imbattuto in sgmllib ma non è disponibile per Python3.tag html analisi con Python

Qualcuno può guidarmi per favore con questo? Posso usare HTMLParser per questo?

Ecco quello che ho provato:

import urllib.request 
f=urllib.request.urlopen("URL") 
s=f.read() 

from html.parser import HTMLParser 
class MyHTMLParser(HTMLParser): 
    def handle_data(self, data): 
     print("Encountered some data:", data) 

parser = MyHTMLParser() 
parser.feed(s)

questo mi dà errore: TypeError: Impossibile convertire oggetto 'byte' a str implicitamente

fonte

2012-02-01 Nerd

"per favore guidami": lo farà. Ricerca. È stato chiesto Molte, molte volte. Dopo aver effettuato la ricerca (nell'angolo in alto a destra), sentiti libero di porre ** domande ** specifiche in base alle risposte già fornite. –

per essere specifici possiamo analizzare url nel metodo parser.feed()? – Nerd

@ghbhatt: mostraci un esempio di ciò che ti serve. Altrimenti vedi la mia risposta è questo che stai chiedendo. – RanRag

Per fissare la linea di cambiamento TypeError # 3 a

s = str (f.read())

La pagina Web che stai ricevendo viene restituito sotto forma di byte, e avete bisogno per cambiare i byte in una stringa per dar loro da mangiare al parser.

fonte

2012-02-01 20:51:47 pycoder112358

+1 anche per la risposta giusta. – RanRag

Dovresti trovare la codifica dalle intestazioni HTTP in modo da sapere quale codifica utilizzare. –

Se si dà un'occhiata al vostro s variabile il suo tipo è un byte

>>> type(s) 
<class 'bytes'>

e se si dà un'occhiata al Parser.feed richiede una stringa o unicode come argument.So, fare

>>> x = s.decode('utf-8') 
>>> type(x) 
<class 'str'> 
>>> parser.feed(x)

o fare x = str(s).

fonte

2012-02-01 20:16:07 RanRag

Sembra che abbiamo dato la stessa risposta in un minuto l'uno dall'altro. – pycoder112358

Dovresti trovare la codifica dalle intestazioni HTTP in modo da sapere quale codifica utilizzare. –

tag html analisi con Python

risposta

Problemi correlati