Sto utilizzando NLTK per eseguire cluster di chilometrientamento sul mio file di testo in cui ogni riga è considerata un documento. Così, per esempio, il mio file di testo è qualcosa di simile:UnicodeDecodeError: il codec 'ascii' non è in grado di decodificare il byte 0xe2 in posizione 13: ordinale non compreso nell'intervallo (128)
appartengono pugno morte dito
affrettate
mike pareti affrettate Gerico
regole Jägermeister
regole bande seguire l'esecuzione di fase Jägermeister
approccio
Ora la codice demo che sto cercando di eseguire è questo: https://gist.github.com/xim/1279283
L'errore che ricevo è questo:
Traceback (most recent call last):
File "cluster_example.py", line 40, in
words = get_words(job_titles)
File "cluster_example.py", line 20, in get_words
words.add(normalize_word(word))
File "", line 1, in
File "/usr/local/lib/python2.7/dist-packages/nltk/decorators.py", line 183, in memoize
result = func(*args)
File "cluster_example.py", line 14, in normalize_word
return stemmer_func(word.lower())
File "/usr/local/lib/python2.7/dist-packages/nltk/stem/snowball.py", line 694, in stem
word = (word.replace(u"\u2019", u"\x27")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 13: ordinal not in range(128)
Che cosa sta succedendo qui?
esegue questo line.decode ('utf-8'). Strip(). Lower(). Split() mi dà anche lo stesso errore. Ho aggiunto il .deocode ('utf-8') –