pitone errore nltk.sent_tokenize ascii codec non può decodificare

ho potuto leggere correttamente il testo in una variabile, ma durante il tentativo di tokenize i testi nel mese di ottenere questo strano errore:pitone errore nltk.sent_tokenize ascii codec non può decodificare

sentences=nltk.sent_tokenize(sample) 
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 11: ordinal not in range(128)

faccio conoscere la causa dell'errore è qualche stringa/char speciale che il tokenizer non è in grado di leggere/decodificare ma come ignorarlo? Grazie

fonte

2014-11-30 rzach

si dovrebbe provare questo:

sentences=nltk.sent_tokenize(sample.decode('utf-8'))

fonte

2014-11-30 11:54:13 shalini

ha funzionato come fascino. Grazie – rzach

dall'errore dell'OP, è chiaro che NLTK sta usando la codifica ASCII durante send_tokenize. Quindi la soluzione sopra funzionerà SOLO se tutto il carattere UNICODE può essere convertito in ASCII equivalente che non è sempre il caso in cui UNICODE ha un set CHAR molto più grande (> 1M) rispetto a ASCII (= 256). – chandresh

In poche parole, la funzione di pos_tag NLTK3 non funziona.

La funzione NLTK2 funziona correttamente, tuttavia.

pip disinstallazione NLTK

pip installare http://pypi.python.org/packages/source/n/nltk/nltk-2.0.4.tar.gz

D'altra parte, il tagger è piuttosto male (a quanto pare 'giardino d'inverno' è un verbo). Vorrei che SpaCy lavorasse su Windows.

fonte

2015-08-12 01:46:52 user3297367

pitone errore nltk.sent_tokenize ascii codec non può decodificare

risposta

Problemi correlati