2012-01-20 4 views
5

Esistono alcune tecniche comuni o consigliate per l'utilizzo del contesto della parola per migliorare l'accuratezza della codifica della parte del discorso?Uso del contesto per migliorare la codifica della parte del discorso

Per esempio, se ho avuto la frase:

ho giocato a golf su un link.

La parola "collegamenti" può essere singolare (un campo da golf) o plurale. Ho provato questa frase in diversi correttori grammaticali e tutti hanno riconosciuto correttamente la frase come valida.

Il problema è che anche pensato che questa frase era valido:

ho cliccato su un link.

C'è un buon modo di usare il contesto (cliccato vs giocato a golf) per dedurre la parte del discorso corretta?

Grazie!

risposta

2

Determinare se "collegamenti" è un "campo da golf" o "riferimenti" è un'attività chiamata disambiguazione parola-senso. Ecco cosa l'articolo di Wikipedia su Word-sense disambiguation dice a proposito della relazione con analisi grammaticale:

In ogni vero test, analisi grammaticale e il senso di tagging sono strettamente correlati con ogni rendendo potenzialmente vincoli alla l'altro. E la questione se questi compiti debbano essere mantenuti insieme o disaccoppiati non è ancora risolta all'unanimità, ma di recente gli scienziati sono inclini a testare queste cose separatamente (ad esempio nelle gare di Senseval/SemEval parti del discorso sono fornite come input per il testo da disambiguare). È istruttivo confrontare il problema della disambiguazione del senso della parola con il problema della codifica della parte del discorso. Entrambi implicano disambiguating o tagging con le parole, sia con i sensi o parti del discorso. Tuttavia, gli algoritmi utilizzati per uno non tendono a funzionare bene per l'altro, principalmente perché la parte del discorso di una parola è determinata principalmente dall'adiacente da una a tre parole, mentre il senso di una parola può essere determinato da parole più lontane . Il tasso di successo per gli algoritmi di codifica della parte della parola è attualmente molto più alto di quello per WSD, con un'accuratezza del 95% o superiore, rispetto ad un'affidabilità inferiore al 75% nella disambiguazione del senso della parola con l'apprendimento supervisionato . Queste cifre sono tipiche per l'inglese e potrebbero essere molto diverse da quelle per altre lingue.

Non sono a conoscenza di opere che utilizzano WSD per informare POS tagging (tuttavia, utilizzando i tag POS di informare WSD è lo standard.) Questo suona come una buona idea per me, anche se il beneficio per la precisione sarebbe essere piccoli perché la precisione è già alta. Potrebbe essere implementato come funzionalità nel tagger CRF di Toutanova.

Problemi correlati