Sto facendo un progetto per un corso di college che sto prendendo.Estrazione di testo con PHP
Utilizzo PHP per creare una semplice app Web che classifichi i tweet come "positivi" (o felici) e "negativi" (o tristi) basati su un set di dizionari. L'algoritmo che sto pensando al momento è il classificatore o l'albero delle decisioni di Naive Bayes.
Tuttavia, non riesco a trovare alcuna libreria PHP che mi aiuti a eseguire un serio processo di elaborazione del linguaggio. Python ha NLTK (http://www.nltk.org). C'è qualcosa del genere per PHP?
Ho intenzione di utilizzare WEKA come back-end dell'app Web (chiamando Weka in linea di comando da PHP), ma non sembra efficiente.
Avete qualche idea di cosa dovrei usare per questo progetto? O dovrei semplicemente passare a Python?
Grazie
Naive classificatori bayesiani non sono davvero difficile per scrivere se si capisce i principi di base. In realtà potresti fare tutto in PHP in questo modo. San Jacinto copriva già tutto ciò che avevo detto sulla parte della PNL. Un'altra cosa che posso dirvi da un progetto simile che ho fatto solo un paio di settimane fa è che la classificazione del sentiment usando l'approccio standard "bag-of-words" non funziona molto bene. Non ho provato niente come n-grammi, anche se ... ho la sensazione che si comporterebbero meglio, ma ovviamente questo ti darebbe un sacco di dimensioni aggiuntive ... –
Non c'è nessuna indicazione nel tuo post o il tuo collegato al motivo per cui questa è una soluzione adatta. –
TextARanguageDetect di PEAR può identificare 52 lingue umane da campioni di testo e restituire punteggi di confidenza per ciascuno. Non è un'opzione interessante da prendere in considerazione? – nuqqsa