C'è un posto dove posso scaricare Treebank di frasi in inglese gratuitamente o con meno di $ 100? Ho bisogno di dati di addestramento contenenti un mucchio di frasi sintattiche sintetizzate (> 1000) in inglese in qualsiasi formato. Fondamentalmente tutto ciò di cui ho bisogno sono le parole in queste frasi che vengono riconosciute da una parte del discorso.C'è qualche Treebank gratis?
risposta
NLTK (per Python) offre diversi treebanks for free.
Grazie, +1. Non ho familiarità con Python, quindi mi raccomando, per favore come posso analizzare questi file * .pickle? Qualche convertitore è più facile da usare come XML o semplicemente testo? – YMC
Che file di sottaceti? Le Banbe degli alberi sono in formato testo. Ad esempio, http://nltk.googlecode.com/svn/trunk/nltk_data/packages/corpora/treebank.zip. – cyborg
19 lingue gratis qui: http://universaldependencies.github.io/docs/ – CpILL
che dire di Penn Treebank? Spero che sia gratuito o almeno adatto. http://www.cis.upenn.edu/~treebank/cdrom2.html
Il costo è di $ 3150 presso LDC: http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC99T42 – YMC
È incluso , insieme a molte altre banche degli alberi, in OntoNotes 4.0 http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2011T03 che è gratuito (anche se devi pagare un costo di distribuzione). –
come costa la distribuzione ?? – CpILL
Qui ci sono un paio (inglese) treebanks disponibile gratuitamente:
American National Corpus: MASC
Domande: QuestionBank e Stanford's corrections
di stampa britannica: BNC
colloqui TED: NAIST-NTT TED Treebank
Georgetown University multistrato Corpus: GUM
biomedica:
Vedi anche Wikipedia per una lista enorme.
- 1. C: Chiama gratis su una variabile automatica?
- 2. Java EE 6 è tutto gratis?
- 3. Dividere un'applicazione Android in due "rami", gratis ea pagamento
- 4. contesto formale libero Grammar Da Contesto Gratis Lingua
- 5. Ogni monade gratis su un ??? il functor produce una comonade?
- 6. Domare il malloc/bestia gratis - consigli e suggerimenti
- 7. Android: come disegnare gratis su qualsiasi cosa (qualsiasi attività)
- 8. come posso usare il set completo di penn treebank all'interno di python/nltk
- 9. Conosci qualche alternativa a NDepend per gli architetti?
- 10. Scattare lo screenshot del sito, lato server, su un server noleggiato Linux, gratis
- 11. in tempo reale gratis conversione di valuta tasso di cambio di feed XML url
- 12. Qualche luce per TEventLogger?
- 13. Spree Commerce: qualche tema?
- 14. C'è qualche evento onDocumentChange?
- 15. GWT/Cometa: qualche esperienza?
- 16. Qualche tutorial su libclang?
- 17. Qualche buon riferimento per JQOM?
- 18. Qualche esperienza con Android NDK?
- 19. NCurses e Perl, qualche guida?
- 20. L'origine ha qualche significato speciale?
- 21. C'è qualche differenza tra $ @ e "$ @"?
- 22. conosci qualche tutorial per MBUnit?
- 23. Qualche esperienza con xp-dev.com?
- 24. Qualche buona API di finanza?
- 25. Qualche buon tutorial di SharpNEAT?
- 26. Qualche compilatore supporta ancora constexpr?
- 27. const_cast VS mutabile? qualche differenza?
- 28. qualche domanda sulla sessioni PHP
- 29. Esiste qualche funzione logaritmo GMP?
- 30. Errore Android ricevendo qualche voce
NLTK non contiene un sottoinsieme consistente di Penn Treebank? –
@ on-hold: in realtà, questa è una domanda molto utile e le risposte sono anche molto utili, poiché si tratta di risorse relativamente scarse. Attenzione, questa non è una domanda "è meglio di B", ma "elenca tutte le risorse di tipo X con la condizione Y". – rec
È ridicolo che LDC addebiti set di dati ... In ogni caso, vedere https://en.wikipedia.org/wiki/Treebank#Syntactic_treebanks –