2010-06-22 12 views
5

Sto cercando un corpus di testo per eseguire ricerche di dati di stile fulltext di prova. O qualcosa che posso scaricare, o un sistema che lo genera. Qualcosa di un po 'più casuale sarebbe meglio per es. 1.000.000 articoli di Wikipedia in un formato facile da inserire in un database di 2 colonne (id, testo).Ricerca di set di dati per verificare le ricerche di stile FULLTEXT su

Qualche idea o suggerimento?

+0

Provate http://pizzachili.dcc.uchile.cl/texts.html –

risposta

0

Lascerò questo fuori là poiché mi è familiare - Prosper.com rende i loro elenchi di prestito membro disponibili per l'analisi through an XML export. L'esportazione avrebbe circa 50.000 richieste di prestito con descrizioni e oltre 1.000.000 profili di membri (anche se molti di questi sono vuoti).

+0

Grazie, potrebbe essere utile. Ancora un bel po 'di elaborazione per farlo funzionare - ma ci proveremo. –

2

Perché non utilizzare uno Wikipedia dump?

+1

Principalmente perché non compressi sono molti GB e sono in linguaggio di markup - solo in cerca di testo. –

3

Progetto Gutenberg ha 32000 libri disponibili.

Edit: A partire da ora (17.06.16) ci sono 52,284 ebooks gratis da scaricare come file di testo in formato UTF-8 in una vasta gamma di argomenti (Dalla scienza alla religione). Anche in formato EPUB, Kindle o html. Verifica here Project Gutenberg

Problemi correlati