2009-07-04 9 views
7

Sembra che il modo più semplice e ingenuo per fare analisi di base delle valutazioni sia con un classificatore bayesiano (confermato da ciò che sto trovando qui su SO). Eventuali contro-argomenti o altri suggerimenti?Simple Sentiment Analysis

risposta

11

Un classificatore bayesiano con una rappresentazione del sacchetto di parole è il metodo statistico più semplice. È possibile ottenere risultati significativamente migliori passando a classificatori più avanzati e alla rappresentazione delle funzioni, al costo di una maggiore complessità.

I metodi statistici non sono l'unico gioco in città. I metodi basati su regole che hanno una maggiore comprensione della struttura del testo sono l'altra opzione principale. Da quello che ho visto, questi in realtà non funzionano come metodi statistici.

Raccomando Manning e Schütze's Foundations of Statistical Natural Language Processing capitolo 16, Categorizzazione del testo.

5

Non riesco a pensare a un modo più semplice, più ingenuo per fare Sentiment Analysis, ma potresti prendere in considerazione l'utilizzo di un Support Vector Machine al posto di Naive Bayes (in alcuni toolkit di apprendimento automatico, questa può essere una sostituzione drop-in) . Date un'occhiata allo "Thumbs up? Sentiment Classification using Machine Learning Techniques" by Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan che è stato uno dei primi lavori su queste tecniche e fornisce una buona tabella di risultati di accuratezza su una famiglia di tecniche correlate, nessuna delle quali è più complicata (dal punto di vista del cliente) di una qualsiasi delle altre.

+0

Questo è un buon inizio. Più tardi, Pang e Lee avevano un altro documento che si avvicinava al problema in modo leggermente diverso per ottenere risultati migliori. Prova questo: http://www.aclweb.org/anthology-new/P/P04/P04-1035.pdf – mixdev

1

Costruire sulla risposta fornita da Ken sopra, v'è un altro documento

"sentiment analysis utilizzando support vector machines con diverse fonti di informazione" di Tony e il Niger,

che prende in esame l'assegnazione di più funzioni di un semplice un sacco di parole usate da Pang e Lee. Qui, sfruttano il wordnet per determinare la differenziazione semantica degli aggettivi e la prossimità del sentimento verso l'argomento nel testo, come funzionalità aggiuntive per SVM. Mostrano risultati migliori rispetto ai tentativi precedenti di classificare il testo in base al sentimento.