2012-01-21 13 views
20

C'è un posto dove posso scaricare Treebank di frasi in inglese gratuitamente o con meno di $ 100? Ho bisogno di dati di addestramento contenenti un mucchio di frasi sintattiche sintetizzate (> 1000) in inglese in qualsiasi formato. Fondamentalmente tutto ciò di cui ho bisogno sono le parole in queste frasi che vengono riconosciute da una parte del discorso.C'è qualche Treebank gratis?

+1

NLTK non contiene un sottoinsieme consistente di Penn Treebank? –

+6

@ on-hold: in realtà, questa è una domanda molto utile e le risposte sono anche molto utili, poiché si tratta di risorse relativamente scarse. Attenzione, questa non è una domanda "è meglio di B", ma "elenca tutte le risorse di tipo X con la condizione Y". – rec

+1

È ridicolo che LDC addebiti set di dati ... In ogni caso, vedere https://en.wikipedia.org/wiki/Treebank#Syntactic_treebanks –

risposta

15

NLTK (per Python) offre diversi treebanks for free.

+0

Grazie, +1. Non ho familiarità con Python, quindi mi raccomando, per favore come posso analizzare questi file * .pickle? Qualche convertitore è più facile da usare come XML o semplicemente testo? – YMC

+2

Che file di sottaceti? Le Banbe degli alberi sono in formato testo. Ad esempio, http://nltk.googlecode.com/svn/trunk/nltk_data/packages/corpora/treebank.zip. – cyborg

+4

19 lingue gratis qui: http://universaldependencies.github.io/docs/ – CpILL

-1

che dire di Penn Treebank? Spero che sia gratuito o almeno adatto. http://www.cis.upenn.edu/~treebank/cdrom2.html

+1

Il costo è di $ 3150 presso LDC: http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC99T42 – YMC

+7

È incluso , insieme a molte altre banche degli alberi, in OntoNotes 4.0 http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2011T03 che è gratuito (anche se devi pagare un costo di distribuzione). –

+0

come costa la distribuzione ?? – CpILL

Problemi correlati