Avevo del codice che funzionava bene rimuovendo la punteggiatura/numeri usando le espressioni regolari in python, ho dovuto cambiare un po 'il codice in modo che funzionasse una lista di interruzioni, non particolarmente importante. Ad ogni modo, ora la punteggiatura non viene rimossa e francamente sono perplesso sul perché.Rimozione di punteggiatura/numeri dal problema di testo
import re
import nltk
# Quran subset
filename = raw_input('Enter name of file to convert to ARFF with extension, eg. name.txt: ')
# create list of lower case words
word_list = re.split('\s+', file(filename).read().lower())
print 'Words in text:', len(word_list)
# punctuation and numbers to be removed
punctuation = re.compile(r'[-.?!,":;()|0-9]')
for word in word_list:
word = punctuation.sub("", word)
print word_list
Eventuali indicazioni sul motivo per cui non funziona sarebbe grande, io non sono esperto in python quindi è probabilmente qualcosa di ridicolmente stupido. Grazie.