Decodifica caratteri di escape nell'URL

Ho una lista contenente URL con caratteri di escape in essi. Quei personaggi sono stati fissati dal urllib2.urlopen quando recupererà la pagina html:Decodifica caratteri di escape nell'URL

http://www.sample1webpage.com/index.php?title=%E9%A6%96%E9%A1%B5&action=edit 
http://www.sample1webpage.com/index.php?title=%E9%A6%96%E9%A1%B5&action=history 
http://www.sample1webpage.com/index.php?title=%E9%A6%96%E9%A1%B5&variant=zh

C'è un modo per trasformare di nuovo alla loro forma di escape in Python?

P.S .: Gli URL sono codificati in utf-8

fonte

2011-11-15 dyoser

Official docs.

urllib.unquote(stringa)

Sostituire %xx fughe da loro equivalenti in singolo carattere.

Esempio: unquote('/%7Econnolly/') rese '/~connolly/'.

E quindi basta decodificare.

Aggiornamento: Per Python 3, scrivere quanto segue:

urllib.parse.unquote(url)

Python 3 docs.

fonte

2011-11-15 13:09:00

gli spettacoli unquote come ho detto sopra sample.com/index.php?title=\xe9\xa6\x96\xe9\xa1 \ xb5 & action = edi ... forse non mi sono spiegato molto bene in questo caso ... ma l'url è cinese e voglio decodificare il suo char originale, non quello univoco – dyoser

@dyoser Devi mettere questo nella tua domanda –

@ root45 questo è un commento ad una risposta ... quindi va bene qui. Grazie per il tuo apprezzamento. – dyoser

È possibile utilizzare urllib.unquote

fonte

2011-11-15 13:09:14

quando uso l'unquote (grazie tra l'altro ...) mostra questa stringa http: //sample.com/index.php? Title = \ xe9 \ xa6 \ x96 \ xe9 \ xa1 \ xb5 & action = edi e so che sono caratteri cinesi ... come posso vederli? Immagino che questo sia unicode, giusto? – dyoser

Questo è già nella tua domanda. Quelli sono i byte UTF-8; puoi convertirli in una stringa Unicode con 'b" \ xe9 \ xa6 \ x96 \ xe9 \ xa1 \ xb5 ".decode (" utf-8 ")' (usando una sintassi Python un po 'più moderna ora). – tripleee

import re 

def unquote(url): 
    return re.compile('%([0-9a-fA-F]{2})',re.M).sub(lambda m: chr(int(m.group(1),16)), url)

fonte

2013-03-26 00:27:53 mistercx

Perché dovresti usare manualmente espressioni regolari e lambda quando c'è una libreria incorporata che fa ciò di cui hai bisogno, probabilmente anche più pensieroso? –

Soluzione cool! 'urllib2' non fa parte della distribuzione standard di python. 're' è. – cxxl

o urllib.unquote_plus

>>> import urllib 
>>> urllib.unquote('erythrocyte+membrane+protein+1%2C+PfEMP1+%28VAR%29') 
'erythrocyte+membrane+protein+1,+PfEMP1+(VAR)' 
>>> urllib.unquote_plus('erythrocyte+membrane+protein+1%2C+PfEMP1+%28VAR%29') 
'erythrocyte membrane protein 1, PfEMP1 (VAR)'

fonte

2015-12-10 04:27:02 dli

E se si utilizza Python3 si potrebbe usare:

urllib.parse.unquote(url)

fonte

2016-01-04 15:03:14

Anche in 'urllib.request.unquote' – Ben

Decodifica caratteri di escape nell'URL

risposta

Problemi correlati