2010-01-14 11 views
7

C'è un documento di ricerca/libro che posso leggere che può dirmi per il problema in questione che tipo di algoritmo di selezione delle caratteristiche funzionerebbe meglio.Come scegliere un Algoritmo di selezione delle caratteristiche? - consiglio

Sto cercando di identificare semplicemente i messaggi di twitter come pos/neg (per cominciare). Ho cominciato con frequenza base di selezione funzione (avendo iniziato con NLTK libro), ma ben presto reso conto che per un problema simile vari individui hanno scelto diversi algoritmi

Anche se posso provare base, informazione reciproca Frequenza, guadagno informazioni e vari altri algoritmi i la lista sembra infinita ... e si chiedeva se esistesse un modo efficace per provare ed errori.

qualche consiglio

risposta

4

ho fatto un ultimo corso NLP termine, ed è venuto abbastanza chiaro che l'analisi sentimento è qualcosa che nessuno sa davvero come fare bene (ancora). Fare questo con l'apprendimento senza supervisione è ovviamente ancora più difficile.

C'è un sacco di ricerche in corso su questo, alcune delle quali commerciali e quindi non aperte al pubblico. Non posso indicarti alcun documento di ricerca ma il libro che abbiamo utilizzato per il corso era this (google books preview). Detto questo, il libro copre molto materiale e potrebbe non essere il modo più rapido per trovare una soluzione a questo particolare problema.

L'unica altra cosa che posso indicarvi è provare a cercare su google, forse su scholar.google.com per "analisi sentiment" o "opinion mining".

Dai un'occhiata al corpus NLTK movie_reviews. Le recensioni sono già classificate/negate e potrebbero aiutarti a formare il tuo classificatore. Anche se la lingua che si trova su Twitter è probabilmente molto diversa da quelle.

Come ultima nota, si prega di postare eventuali successi (o fallimenti per quella materia) qui. A un certo punto, questo problema verrà risolto più tardi.

+0

il libro ha qualche codice di accompagnamento o è una teoria pesante? –

+0

È piuttosto una teoria pesante e si concentra principalmente sullo sfondo matematico per i metodi non sulla loro implementazione. L'ho trovato da Google Libri e puoi sfogliarlo lì. Aggiungerò il link al mio post originale. –

1

Sfortunatamente, non c'è nessun proiettile d'argento per nulla quando si tratta di apprendimento automatico. Solitamente viene chiamato teorema "No Free Lunch". Fondamentalmente un certo numero di algoritmi funziona per un problema, e alcuni fanno meglio su alcuni problemi e peggio sugli altri. Nel complesso, si comportano tutti allo stesso modo. Lo stesso set di funzionalità può far sì che un algoritmo funzioni meglio e un altro funzioni in modo peggiore per un dato set di dati. Per un set di dati diverso, la situazione potrebbe essere completamente invertita.

Di solito quello che faccio è scegliere alcuni algoritmi di selezione delle funzionalità che hanno funzionato per gli altri su compiti simili e quindi iniziare con quelli. Se la performance che ottengo usando i miei classificatori preferiti è accettabile, scrutare per un altro mezzo punto percentuale probabilmente non vale il mio tempo. Ma se non è accettabile, allora è il momento di rivalutare il mio approccio o di cercare altri metodi di selezione delle funzionalità.

6

Hai provato il libro che ho raccomandato sull'ultima domanda? È disponibile gratuitamente online e interamente sull'attività che ti sta trattando: Sentiment Analysis and Opinion Mining di Pang and Lee. Il capitolo 4 ("Estrazione e classificazione") è proprio ciò di cui hai bisogno!

+1

Non mi sono reso conto che è disponibile gratuitamente - ho appena visto la domanda e ho trovato il pdf - penso che potrebbe essere interessante - ero un po 'dissuaso quando ho visto il prezzo di $ 99 su Amazon - grazie per il vostro aiuto.lo sto leggendo ora .. –

+1

Sei il benvenuto. A proposito, ora che hai più di 15 punti di reputazione, puoi fare anche upvotes, hehe ... ;-) – ferdystschenko

Problemi correlati