Sto creazione di token di un testo utilizzando nltk.word_tokenize e mi piacerebbe ottenere anche l'indice nel testo grezzo originale per il primo carattere di ogni modo, vale a direottenere indici di testo originale da NLTK word_tokenize
import nltk
x = 'hello world'
tokens = nltk.word_tokenize(x)
>>> ['hello', 'world']
Come posso ottenere anche l'array [0, 7]
corrispondente agli indici raw dei token?
ho aggiunto uno span_tokenizer alla TreebankWordTokenizer qui: https://gist.github.com/ckoppelman/c93e4192d9f189fba590e095258f8f33. Qualsiasi aiuto o consiglio è apprezzato. – Charles