Sto cercando di estrarre i nomi e luoghi da molto brevi sequenze di testo di esempioDevo usare LingPipe o NLTK per estrarre nomi e luoghi?
"cardinals vs jays in toronto" " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced" "jenson button - pole position, brawn-mercedes - monaco".
Questi dati è attualmente in un database MySQL, e io (più o meno) hanno un record separato per ogni atleta, anche se i nomi a volte vengono scritti errori, ecc.
Vorrei estrarre gli atleti e le località. Di solito lavoro in PHP, ma non sono stato in grado di trovare una libreria per l'estrazione delle entità (e potrei voler approfondire alcune NLP e ML in futuro).
Da quello che ho trovato, e LingPipeNLTK sembrano essere il più consigliato, ma io non riesco a capire se uno dei due sarà davvero soddisfare il mio scopo, o se qualcos'altro sarebbe meglio.
Non ho programmato né in Java né in Python, quindi prima di iniziare a imparare nuove lingue, spero di avere qualche consiglio su quale strada seguire, o su altri consigli.
"... un tavolo separato per ogni atleta ..." forse intendi un _record_ per ogni atleta? (Sarebbe un sacco di tavoli altrimenti ...) – mjv
sì! lingue/moduli sarebbero l'ultimo dei miei problemi se avessi un tavolo separato per ogni atleta! Grazie per la segnalazione. – pedalpete