Il codec 'ascii' non può codificare il carattere in posizione * ord non compreso nell'intervallo (128)

Ci sono alcuni thread su stackoverflow, ma non sono riuscito a trovare una soluzione valida al problema nel suo complesso.Il codec 'ascii' non può codificare il carattere in posizione * ord non compreso nell'intervallo (128)

Ho raccolto enormi somme di dati testuali dalla funzione di lettura urllib e memorizzato nello stesso file di pickle.

Ora voglio scrivere questi dati in un file. errori durante la scrittura mi sto simili a -

'ascii' codec can't encode character u'\u2019' in position 16: ordinal not in range(128)

e un sacco di dati si sta perdendo.

Suppongo che i dati dal urllib lettura è byte di dati

Ho provato

1. text=text.decode('ascii','ignore') 
    2. s=filter(lambda x: x in string.printable, s) 
    3. text=u''+text 
     text=text.decode().encode('utf-8')

ma ancora im finendo con errori simili. Qualcuno può indicare una soluzione adeguata. E anche i codec dovrebbero funzionare. Non ho problemi se i byte di conflitto non vengono scritti nel file come stringa, quindi la perdita viene accettata.

fonte

2013-03-12 minocha

Potete mostrare che cosa è in 'Text'? –

Y Puoi farlo tramite il modulo smart_str del modulo Django. Basta provare questo:

from django.utils.encoding import smart_str, smart_unicode 

text = u'\u2019' 
print smart_str(text)

È possibile installare Django avviando una shell dei comandi con privilegi di amministratore ed eseguire questo comando:

pip install Django

fonte

2013-03-12 14:54:12

I risultati sono sorprendentemente simili alla codifica ('ascii', 'ignore') – minocha

Due anni dopo la linea, posso dire quanto sia importante questa risposta per python2.7, mi dispiace per l'osservazione sconsiderata sopra ^ – minocha

I dati sono unicode dati. Per scrivere che in un file, utilizzare .encode():

text = text.encode('ascii', 'ignore')

ma che sarebbe rimuovere tutto ciò che non è ASCII. Forse hai voluto codificare su una codifica più adatta, come UTF-8, invece?

Si consiglia di leggere su Python e Unicode:

The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) da Joel Spolsky
Il Python Unicode HOWTO
Pragmatic Unicode da Ned Batchelder

fonte

2013-03-12 14:42:30

E forse anche [Say Hello to Unicode] (http://kos.gd/2013/02/say-hello-to-unicode/) (plug spudorato :-)) – Kos

Questo funziona per la maggior parte della misura .. – minocha

@ martijn-pieters Ho notato che mentre scrivevo sul db ho usato la funzione di codifica. e stavo inutilmente facendo la decodifica della codifica mentre scaricavo nuovamente il contenuto in un file di testo. Ci sono tuttavia alcuni errori, forse a causa di utf 8 e utf 16 conflitti. qual è la risoluzione che potresti suggerire? – minocha

Il codec 'ascii' non può codificare il carattere in posizione * ord non compreso nell'intervallo (128)

risposta

Problemi correlati