Python Come risolvere la codifica utf-8 rotta?

La mia stringa è Niá»‡m Bá»“ TÃ¡t (Thiá»n sÆ° Nháº¥t Háº¡nh) e voglio decodificarlo per Niệm Bồ Tát (Thiền sư Nhất Hạnh) vedo in quel sito può farlo http://www.enderminh.com/minh/utf8-to-unicode-converter.aspx Python Come risolvere la codifica utf-8 rotta?

e comincio a provare da Python

mystr = '09. BÃ¡t NhÃ£ TÃ¢m Kinh' 
mystr.decode('utf-8')

ma in realtà non è corretto perché la stringa originale è utf-8 ma la stringa show non è il mio risultato in attesa.

Nota: è un personaggio vietnamita.

Come risolvere il caso? È Windows Unicode o qualcosa del genere? Come rilevare la codifica qui. Grazie in anticipo

fonte

2014-10-21 giaosudau

sembra che è stato codificato come 'utf-8', ma interpretata come' latino-1'. – ch3ka

'>>>" Niệm Bồ Tát (Thiền sư Nhất Hạnh) ". Codifica ('utf-8'). Decodifica ('latin-1')' ''Niá» \ x87m Bá »\ x93 TÃ¡t (Questo è molto vicino ... – ch3ka

@ ch3ka, in realtà cp1252, un superset di latin-1 –

io non sono sicuro di quello che si può fare con questo tipo di dati, ma per il tuo esempio nel tuo post originale, questo funziona:

>>> mystr = '09. BÃ¡t NhÃ£ TÃ¢m Kinh' 
>>> s = mystr.decode('utf8').encode('latin1').decode('utf8') 
>>> s 
u'09. B\xe1t Nh\xe3 T\xe2m Kinh' 
>>> print(s) 
09. Bát Nhã Tâm Kinh

fonte

2014-10-21 17:27:17

La codifica utilizzata per manipolare questi dati era molto probabilmente cp1252, quindi l'utilizzo di quello anziché di Latin-1 consentirà di recuperare più (sebbene non tutti) i caratteri. Ni m B Tát (Thi n sư Nhất Hạnh) contro Niệm Bồ Tát (Thi n sư Nhất Hạnh) –

Lo so in python3 ma che ne dici di python2? – giaosudau

@sepdau Il mio esempio era con Python 2.7 su Linux :) –

L'unica cosa che mi ha aiutato con rotta stringa cirillica - https://github.com/LuminosoInsight/python-ftfy

Questo modulo risolve praticamente tutto e funziona molto meglio dei decodificatori online.

>>> from ftfy import fix_encoding 
>>> mystr = '09. BÃ¡t NhÃ£ TÃ¢m Kinh' 
>>> fix_encoding(mystr) 
'09. Bát Nhã Tâm Kinh'

può essere facilmente installato utilizzando pip install ftfy

fonte

2016-10-06 19:42:29

se uso "da ftfy import fix_encoding" anche se mi ha aiutato a risolvere il problema che ho riscontrato riguardo a UTF-8, il mio codice impiega troppo tempo a darmi il risultato – javac

Ha funzionato per me per risolvere i problemi di codifica in html usando lxml librerie. Incredibilmente ha funzionato al primo tentativo. Grazie – rodrigorf

@rodrigorf grazie dovrebbe andare a lib creator =) repo Star –

Python Come risolvere la codifica utf-8 rotta?

risposta

Problemi correlati