2011-01-20 26 views
6

Sto cercando il miglior modo basato su PHP per scansionare un sacco di voci di testo (annunci) e tirare fuori le parole chiave - qualcuno sa di Part-of-Speech codifica? C'è un modo PHP per farlo?Come impiantare un tagger Part-of-Speech (POS)

Eseguo la scansione di molti annunci online, ma nessuno con le categorie! Per velocizzare il processo di categorizzazione, sto cercando di installare un tagger Part-of-Speech (http://en.wikipedia.org/wiki/Part-of-speech_tagging). Fondamentalmente, questi sono fasci di software algoritmico di analisi del testo che possono dirmi quali parole sono sostantivi (come "Apartment", "Car", "Dog", ecc.) E quali sono le parole spazzatura come at, if, and, but, etc . MA ...

Ci sono servizi di tagging online - uno di Yahoo, che sembra stia diventando meno amoroso in questi giorni - un altro da XEROX. Tuttavia, sono davvero interessato a installare la mia libreria/software e collegarlo alla mia app web.

NESSUNO conosce un buon modo per installare il tagging POS che funziona con un'applicazione Web PHP? Sto morendo dalla voglia di capirlo, quindi qualsiasi informazione, consiglio o altra saggezza che possiedi è davvero apprezzata!

Ecco un elenco di un sacco di diversi software POS: http://www-nlp.stanford.edu/links/statnlp.html#Taggers (Guardate sotto "Taggers POS")

Grazie per la lettura di questo!

+0

quale è il miglior tagger POS? qualche idea? –

risposta

5

Ian Barber ha implementato un Brill Tagger in PHP, che presenta sul suo sito PHP/ir dove descrive l'utilizzo per analizzare i tweet.

2

Sì, sto utilizzando il tagger Brill. Funziona in una certa misura, anche se vorrei poter capire come contribuire al suo set di regole. Fa molti errori, ma fornisce ancora circa l'85% di dati precisi. Il mio unico problema è che è LENTO!

Lo fa esattamente dove conta, su parole con doppio significato - tuttavia, ci sono molte convenzioni non contate, come le clausole di congiunzione contrastanti, ad esempio potrei dire qualcosa di negativo su qualcuno, ma dopo la virgola, dire qualcosa che invertire la polarità in positivo, o no. Il computer non può vedere gli idiomi.

Problemi correlati