Sto usando nltk, quindi voglio creare i miei testi personalizzati proprio come quelli di default su nltk.books. Tuttavia, ho appena alzato al metodo comeCome si esegue il tokenize di una frase stringa in NLTK?
my_text = ['This', 'is', 'my', 'text']
mi piacerebbe scoprire un modo per inserire il mio "testo" come:
my_text = "This is my text, this is a nice way to input text."
Quale metodo, pitone di o da NLTK permette io per fare questo E ancora più importante, come posso sottovalutare i simboli di punteggiatura?
Potrebbe chiarire, cosa si intende per 'sottovalutare punteggiatura symbols'? – quetzalcoatl
Credo che intendeva tokenize la frase di ingresso – alvas
Sì, per esempio se ho fatto: sentente = "Questa è la mia frase, una frase è una breve espressione" Quindi, 'frase' e 'frase' sarebbe due diversi elementi ... – diegoaguilar