2014-04-20 62 views
5

Ho bisogno di classificare il testo e sto usando il modulo blob python di testo per realizzarlo. Posso usare sia il classificatore di Naive Bayes che l'albero delle decisioni. Sono preoccupato per i punti sotto indicati.Classificazione del testo in python - (NLTK Sentence based)

1) I Ho bisogno di classificare frasi come argomento/Non un argomento. Sto usando due classificatori e sto allenando il modello usando i set di dati apt. La mia domanda è tutta su devo allenare il modello con solo parole chiave? o posso addestrare il set di dati con tutte le possibili argomentazioni e senza argomenti frasi di esempio? Quale sarebbe l'approccio migliore in termini di accuratezza della classificazione del testo e tempo di recupero?

2) Poiché la classificazione sarebbe o argomento/non argomento, quale classificatore otterrebbe risultati esatti? È Naive Bayes/Decision tree/Positive Naive bayes?

Grazie in anticipo.

risposta

1

Idealmente, it is said that the more you train your data, the 'better' your results sono ma dipende in realtà dopo averlo testato e confrontato con i risultati reali che hai preparato.

Quindi, per rispondere alla domanda, la formazione del modello con parole chiave potrebbe fornire risultati troppo ampi che potrebbero non essere argomenti. Ma in realtà, devi confrontarlo con qualcosa, quindi ti suggerisco di allenare il tuo modello con una struttura di frasi che gli argomenti sembrano seguire (uno schema di qualche tipo), potrebbe eliminare quelli che non sono argomenti. Ancora, fai questo e poi testalo per vedere se ottieni una maggiore precisione rispetto al modello precedente.

Per rispondere alla prossima domanda: quale sarebbe l'approccio migliore in termini di accuratezza della classificazione del testo e tempo di recupero? Dipende molto dai dati che usi, non posso davvero rispondere a questa domanda perché devi eseguire una validazione incrociata per vedere se il tuo modello raggiunge un'elevata precisione. Ovviamente, più funzioni stai cercando, più scarsa è la performance dell'algoritmo di apprendimento. E se hai a che fare con un gigabyte di testo da analizzare, ti suggerisco di usare Mapreduce per eseguire questo lavoro.

Si potrebbe voler controllare SVM come modello di apprendimento, testarlo con i modelli di apprendimento (bayes naive, bayes positivi e alberi decisionali) e vedere quale si comporta meglio.

Spero che questo aiuti.

Problemi correlati