ho:Estrazione un insieme di parole con Python/NLTK, poi paragonandolo a un dizionario inglese standard
from __future__ import division
import nltk, re, pprint
f = open('/home/a/Desktop/Projects/FinnegansWake/JamesJoyce-FinnegansWake.txt')
raw = f.read()
tokens = nltk.wordpunct_tokenize(raw)
text = nltk.Text(tokens)
words = [w.lower() for w in text]
f2 = open('/home/a/Desktop/Projects/FinnegansWake/catted-several-long-Russian-novels-and-the-NYT.txt')
englishraw = f2.read()
englishtokens = nltk.wordpunct_tokenize(englishraw)
englishtext = nltk.Text(englishtokens)
englishwords = [w.lower() for w in englishwords]
che è direttamente dal manuale di NLTK. Quello che voglio fare dopo è confrontare vocab
in un set completo di parole inglesi, come l'OED, ed estrarre la differenza - l'insieme di parole di Finnegans Wake che non hanno, e probabilmente non lo saranno mai, nell'OED. Sono molto più una persona di natura verbale che una persona orientata alla matematica, quindi non ho ancora capito come farlo, e il manuale va in modo troppo dettagliato su cose che in realtà non voglio fare. Suppongo che siano solo una o due righe di codice, comunque.
A proposito, come posso formattare il pitone nella domanda con evidenziazioni, come apparirebbe in un editor di testo? – magnetar
Rientra tutto. Fatto automaticamente se lo evidenzi e fai clic sul pulsante con uno e zero sopra l'editor. – katrielalex
Oh, e il tuo codice non è il più efficiente ... potresti fare un uso giudizioso degli iteratori per salvare i passaggi multipli. – katrielalex