2010-08-02 8 views
5

Sto cercando di fare dell'analisi del testo in un programma che sto scrivendo. Sto cercando fonti di testo alternative nella sua forma grezza simile a ciò che è fornito nelle discariche di Wikipedia (download.wikimedia.com).Dove posso trovare un dump di testo non elaborato sul web?

preferirei non dover passare attraverso la briga di strisciare siti web, cercando di analizzare l'html, l'estrazione di testo ecc ..

risposta

7

Che tipo di testo stai cercando?

Ci sono molti e-book gratuiti (fiction e saggistica) in formato .txt disponibili allo Project Gutenberg.

Hanno anche large DVD images pieno di libri disponibili per il download.

+0

+1 Sono venuto qui per pubblicare PG. – Joe

0

il gutenberg project ha enormi quantità di ebook in vari formati (tra cui testo in chiaro)

3

NLTK fornisce una semplice API Python per accedere many text corpora, tra cui Gutenberg, Reuters, Shakespeare, e altri.

>>> from nltk.corpus import brown 
>>> brown.words() 
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...] 
Problemi correlati