2014-12-26 13 views
11

Sto sperimentando il pacchetto NLTK usando Python. Ho provato a scaricare NLTK usando nltk.download(). Ho ricevuto questo tipo di messaggio di errore. Come risolvere questo problema? Grazie.errore di download con nltk.download()

Il sistema che ho usato è Ubuntu installato sotto VMware. L'IDE è Spyder.

enter image description here

Dopo aver utilizzato nltk.download('all'), può scaricare alcuni pacchetti, ma diventa messaggio di errore durante il download oanc_masc

enter image description here

+1

Perché non stai installando [** python-nltk **] (http://packages.ubuntu.com/trusty/python-nltk) usando ** apt-get **? –

+0

@CristianCiupitu è ​​possibile installare 'nltk' come si desidera, ma si utilizza' nltk.download() 'per scaricare i dati corpus * dopo * averlo installato. – Ffisegydd

+0

@Ffisegydd, hai qualche soluzione per risolvere questo problema? Grazie. – user288609

risposta

19

Per scaricare un particolare set di dati/modelli, utilizzare la funzione nltk.download(), per esempio se si sta cercando di scaricare il tokenizzatore punkt frase, utilizzare:

$ python3 
>>> import nltk 
>>> nltk.download('punkt') 

Se non siete sicuri di quali dati/modello avete bisogno, si può iniziare con l'elenco di base dei dati + modelli con:

>>> import nltk 
>>> nltk.download('popular') 

Scarica una lista di risorse "popolari".

assicurarsi di avere l'ultima versione di NLTK perché è sempre migliorare e costantemente mantenere:

$ pip install --upgrade nltk 

a cura

Nel caso qualcuno è di evitare gli errori di scaricare i set di dati più grandi da nltk, da https://stackoverflow.com/a/38135306/610569

$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.zip 
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite 
$ python 

>>> import nltk 
>>> dler = nltk.downloader.Downloader() 
>>> dler._update_index() 
>>> dler._status_cache['panlex_lite'] = 'installed' # Trick the index to treat panlex_lite as it's already installed. 
>>> dler.download('popular') 

E se qualcuno vuole trovare nltk_data directory, vedere https://stackoverflow.com/a/36383314/610569

E per config nltk_data percorso, vedere https://stackoverflow.com/a/22987374/610569

+1

grazie per la risposta. Ho provato nltk.download ('tutti'), è riuscito a scaricare alcuni pacchetti, ma si è bloccato durante il download di sth relativo a oasc_masc, ho incluso lo screenshot correlato nel post originale. – user288609

+1

qual è la tua versione di nltk? qual è l'output di questo sul tuo terminale: 'python -c" import nltk; print nltk .__ versione __ "'? – alvas

+0

Salve @alvas Sto riscontrando problemi simili usando nltk.download ('tutti') su Ubuntu, tranne che ottengo l'errore HTTP 404: Non trovato sia in IDLE che nella riga di comando. La mia versione NLTK è 2.0b9. Hai idea di cosa potrebbe succedere? – Joansy

4

da linea di comando, dopo l'importazione NLTK, provare

nltk.download('popular', halt_on_error=False) 

Dopo un errore lo farà chiedere di riprovare il pacchetto rotto, basta declinare con n e continuerà con i pacchetti corretti.

+0

Ho avuto diversi 'UnicodeDecodeError', e ho dovuto avviare questo comando più volte per scaricare tutto, ma alla fine ha funzionato. Grazie ! – CoMartel

Problemi correlati