Il mio obiettivo è quello di analizzare alcuni corpus (twitter per il momento) per il contenuto emotivo. Proprio oggi mi sono reso conto che avrebbe avuto un po 'di senso cercare le parole staminali anziché avere una lista esauriente di parole emozionali. E così ho esplorato nltk.stem solo per rendermi conto che ci sono 4 diversi stemmer. Vorrei chiedere ai linguisti di stackoverflow se LancasterStemmer, PorterStemmer, RegexpStemmer, RSLPStemmer o WordNetStemmer è preferibilmente preferibilmente con qualche giustificazione.Quale stemmer di parole dovrei usare in nltk?
risposta
RSLP è per portugese. Immagino che tu voglia l'inglese. Regexp richiederebbe di sviluppare le proprie espressioni di derivazione, quindi penso che possa essere ignorato. WordnetStemmer richiede che tu conosca la parte del discorso per la parola, quindi per prima cosa dovresti fare il tagging pos per usarlo. Ho usato l'algoritmo di porter e abbastanza buono, ma l'algoritmo di lancaster è più recente, quindi potrebbe essere migliore. Potresti provare a utilizzare una combinazione di stemmer, in cui scegli la radice più corta di ciascun stemmer. In ogni caso, la linea di fondo è che PorterStemmer è una buona scelta predefinita.
Può essere un po 'diverso da quello che si sta chiedendo, ma la libreria Nodebox Lingustics contiene una funzione is_emotive() che sembra controllare le parole per vedere se sono iponimi ricorsivi di certe parole emotive. Da commonsense.py
ekman = ["anger", "disgust", "fear", "joy", "sadness", "surprise"]
other = ["emotion", "feeling", "expression"]
Non uno stallo, ma un approccio interessante da verificare.
- 1. quale algoritmo dovrei usare?
- 2. Quale doctype dovrei usare?
- 3. Quale PreApplicationStartMethod dovrei usare?
- 4. quale di == e =: = dovrei usare?
- 5. Quale codec audio dovrei usare?
- 6. Quale pacchetto postgresql dovrei usare?
- 7. Quale installazione Python dovrei usare?
- 8. Quale dovrei usare? decimal.Add() o "+"
- 9. Quale GWT EventBus dovrei usare?
- 10. in quale contesto dovrei usare AlertDialog.Builder?
- 11. Quale parser Microdata dovrei usare in Python
- 12. Quale parser RSS dovrei usare in PHP?
- 13. Quale Fold dovrei usare in VIM?
- 14. Quale stile di ritorno dovrei usare?
- 15. Quale versione di python opencv dovrei usare?
- 16. Quale valore di errore dovrei usare?
- 17. Quale versione di openssl dovrei usare?
- 18. Persistente vs non persistente - Quale dovrei usare?
- 19. Quale tecnologia modello dovrei usare con CherryPy?
- 20. Quale doctype dovrei usare per GWT 2.0?
- 21. Quale risoluzione dello schermo dovrei usare?
- 22. Quale tipo MIME dovrei usare per mp3
- 23. Quale VCS dovrei usare con Google Code?
- 24. Quale libreria dei grafici .net dovrei usare?
- 25. Quale appid dovrei usare con netsh.exe?
- 26. Quale plug Mercurial dovrei usare per IntelliJ
- 27. Quale dovrei usare, CodeContract o CuttingEdge.Conditions?
- 28. Quale adattatore CouchDB per Ruby dovrei usare?
- 29. Quale ordine dovrei usare GZIPOutputStream e BufferedOutputStream
- 30. Quale dovrei usare? Backbone.js Router.navigate e window.location.hash