Per scaricare un particolare set di dati/modelli, utilizzare la funzione nltk.download()
, per esempio se si sta cercando di scaricare il tokenizzatore punkt
frase, utilizzare:
$ python3
>>> import nltk
>>> nltk.download('punkt')
Se non siete sicuri di quali dati/modello avete bisogno, si può iniziare con l'elenco di base dei dati + modelli con:
>>> import nltk
>>> nltk.download('popular')
Scarica una lista di risorse "popolari".
assicurarsi di avere l'ultima versione di NLTK
perché è sempre migliorare e costantemente mantenere:
$ pip install --upgrade nltk
a cura
Nel caso qualcuno è di evitare gli errori di scaricare i set di dati più grandi da nltk
, da https://stackoverflow.com/a/38135306/610569
$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.zip
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite
$ python
>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed.
>>> dler.download('popular')
E se qualcuno vuole trovare nltk_data
directory, vedere https://stackoverflow.com/a/36383314/610569
E per config nltk_data
percorso, vedere https://stackoverflow.com/a/22987374/610569
Perché non stai installando [** python-nltk **] (http://packages.ubuntu.com/trusty/python-nltk) usando ** apt-get **? –
@CristianCiupitu è possibile installare 'nltk' come si desidera, ma si utilizza' nltk.download() 'per scaricare i dati corpus * dopo * averlo installato. – Ffisegydd
@Ffisegydd, hai qualche soluzione per risolvere questo problema? Grazie. – user288609