Sto provando a prendere una serie di recensioni e convertirle nel formato ARFF da utilizzare con WEKA. Sfortunatamente o ho completamente frainteso come funziona il formato, o dovrò avere un attributo per TUTTE le parole possibili, quindi un indicatore di presenza. Qualcuno conosce un modo migliore, o idealmente ha un file ARFF di esempio?ARFF per l'elaborazione del linguaggio naturale
risposta
voluto un po 'per capire, ma con questo input.arff:
@relation text_files
@attribute review string
@attribute sentiment {0, 1}
@data
"this is some text", 1
"this is some more text", 1
"different stuff", 0
E questo comando:
java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff
Di seguito è prodotta:
@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"'
@attribute sentiment {0,1}
@attribute different numeric
@attribute is numeric
@attribute more numeric
@attribute some numeric
@attribute stuff numeric
@attribute text numeric
@attribute this numeric
@data
{0 1,2 1,4 1,6 1,7 1}
{0 1,2 1,3 1,4 1,6 1,7 1}
{1 1,5 1}
Se memorizzare le recensioni in file di testo semplice e cartelle diverse (positive e negative nel tuo caso) è possibile utilizzare TextDirectoryLoader.
Lo si trova nell'applicazione KnowledgeFlow in Weka o dalla riga di comando. Maggiori informazioni qui: http://weka.wikispaces.com/ARFF+files+from+Text+Collections
Il formato dei file è un'istanza, ad esempio una revisione, per riga nei file txt? –
no, è possibile avere più righe per txt – zdepablo
- 1. Binarizzazione nell'elaborazione del linguaggio naturale
- 2. Elaborazione del linguaggio naturale - Caratteristiche per la classificazione del testo
- 3. Elaborazione del linguaggio naturale in Ruby
- 4. Analisi del linguaggio naturale di un appuntamento?
- 5. Elaborazione del linguaggio naturale in PHP
- 6. Elaborazione del linguaggio naturale in Windows 8
- 7. Elaborazione del linguaggio naturale - Idee per progetti per principianti
- 8. Java o Python per l'elaborazione del linguaggio naturale
- 9. Python vs Java per l'elaborazione del linguaggio naturale
- 10. API per l'elaborazione del linguaggio naturale in Android
- 11. Sottotipi per i tipi di linguaggio naturale
- 12. Nell'elaborazione del linguaggio naturale, qual è lo scopo del chunking?
- 13. Data/ora Approssimazione del linguaggio naturale in Swift
- 14. Esiste una buona libreria di elaborazione del linguaggio naturale
- 15. Soluzione di elaborazione del linguaggio naturale in Java?
- 16. Split String in linguaggio naturale rompe
- 17. Generazione di linguaggio naturale in PHP
- 18. dll .NET per il linguaggio naturale a SQL/SPARQL
- 19. Database per l'elaborazione di query in linguaggio naturale
- 20. Quali sono alcuni buoni strumenti di analisi del linguaggio naturale per Perl?
- 21. Esiste un tipo di libreria statistica di elaborazione del linguaggio naturale per Haskell?
- 22. algoritmo di elaborazione del linguaggio naturale per l'umore di una e-mail
- 23. Esiste un parser del linguaggio naturale per data/ora in javascript?
- 24. Ricerca della struttura della frase in linguaggio naturale
- 25. Elaborazione del linguaggio naturale - Conversione di funzionalità di testo in vettori Feature
- 26. Strumenti di analisi del linguaggio naturale: cosa c'è fuori e cosa no?
- 27. Elaborazione del linguaggio naturale - Conversione di bibliografia non strutturata in metadati strutturati
- 28. Qual è il modo migliore per enumerare una lista in linguaggio naturale (Scala)?
- 29. Come leggere il file .arff con R?
- 30. IComparer per la cernita naturale
Sai cosa rappresentano le tuple come '0 1', separate da virgole in' {0 1,2 1,4 1,6 1,7 1} '? Penso che questo sia diverso dal convenzionale formato .arff. Hai avuto fortuna a ottenere risultati significativi con WEKA? – Rhubarb
Questo è piuttosto un vecchio post, ma da quello che ricordo la prima cifra nella tupla è il numero @attribute, e il secondo numero è il conteggio delle occorrenze nella stringa. Penso che in una certa misura può significare ciò che vuoi, purché tu capisca cosa significano i risultati. –