2014-11-20 10 views
5

Sto taggando il testo in spagnolo con il POS Tagger di Stanford (tramite NLTK in Python).Significato di Stanford Spagnolo Tag Tagger

Ecco il mio codice:

import nltk 
from nltk.tag.stanford import POSTagger 
spanish_postagger = POSTagger('models/spanish.tagger', 'stanford-postagger.jar') 
spanish_postagger.tag('esta es una oracion de prueba'.split()) 

Il risultato è:

[(u'esta', u'pd000000'), 
(u'es', u'vsip000'), 
(u'una', u'di0000'), 
(u'oracion', u'nc0s000'), 
(u'de', u'sp000'), 
(u'prueba', u'nc0s000')] 

Voglio sapere dove posso trovato ciò significa esattamente pd000000, vsip000, di0000, nc0s000, sp000?

risposta

9

Questa è una versione semplificata del set di tag utilizzato nello AnCora treebank. È possibile trovare la relativa documentazione tagset qui: https://web.archive.org/web/20160325024315/http://nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html

La "semplificazione" consiste nel cancellare molti dei campi finali che non appartengono strettamente a un tag parte del discorso. Ad esempio, il tagger di parte del discorso ti darà sempre valori nulli (0) per il campo NER del tagset originale (vedi EAGLES noun documentation).

In breve: i campi nei tag POS prodotti dal nostro tagger corrispondono esattamente ai campi POS AnCora, ma molti di questi campi saranno nulli. Per la maggior parte dei scopi pratici dovrai solo guardare i primi 2-4 caratteri del tag. Il primo carattere indica sempre l'ampia categoria POS e il secondo carattere indica un tipo di sottotipo.


Siamo nel processo di scrittura della documentazione introduttiva per l'utilizzo di spagnolo con CoreNLP (che significa la comprensione di questi tag, e molto altro) al momento. Per il momento, è possibile trovare ulteriori informazioni sulla prima pagina del nostro technical documentation.

+0

Grazie per la risposta. –

+0

C'è un modo per ottenere il tag completo con Stanford NLP? In realtà sono più interessato alla persona, al numero e al genere del verbo. Sono stato in grado di farlo usando Freeling POS Tagging, ma non so come farlo con la Stanford NLP. – Kage

+0

Kage, ho risposto alla tua domanda qui: http://stackoverflow.com/questions/29556109/spanish-pos-tagging-with-stanford-nlp-is-it-possible-to-get-the-person-number –

Problemi correlati