2010-12-31 8 views
7

Attualmente sto usando gli strumenti OpenNLP a frasi tedesco PoS-tag, con il modello maxent elencati sul loro download-site:Quale set di tag viene utilizzato nel modello maxen tedesco di OpenNLP?

 
de  POS Tagger  Maxent model trained on tiger corpus. de-pos-maxent.bin 

Questo funziona molto bene ed ho ottenuto risultati come:

 
Diese, Community, bietet, Teilnehmern, der, Veranstaltungen, die, Möglichkeit ... 
PDAT, FM, VVFIN, NN, ART, NN, ART, NN ... 

Con le frasi taggate voglio fare qualche ulteriore elaborazione in cui devo sapere il significato dei singoli tag. Unforunately Ricerca della OpenNLP-Wiki per i set di tag non è molto utile in quanto dice:

 
TODO: Add more tag sets, also for non-english languages 

Qualcuno sa dove posso trovare l'insieme di tag utilizzato nel modello Maxent tedesco?

risposta

3

È a mia conoscenza che il tagger POS OpenNLP per il tedesco è stato addestrato sul corpus della tigre. Questo corpus usa effettivamente il set di tag STTS, con piccole modifiche. Ho trovato il seguente utili: A Brief Introduction to the Tiger Sample Corpus

8

ho creato un enum che contiene i tag tedeschi (inversa è possibile):

public enum POSGermanTag { 

    ADJA("Attributives Adjektiv"), 
    ADJD("Adverbiales oder prädikatives Adjektiv"), 
    ADV("Adverb"), 
    APPR("Präposition; Zirkumposition links"), 
    APPRART("Präposition mit Artikel"), 
    APPO("Postposition"), 
    APZR("Zirkumposition rechts"), 
    ART("Bestimmer oder unbestimmer Artikel"), 
    CARD("Kardinalzahl"), 
    FM("Fremdsprachichles Material"), 
    ITJ("Interjektion"), 
    KOUI("unterordnende Konjunktion mit zu und Infinitiv"), 
    KOUS("unterordnende Konjunktion mit Satz"), 
    KON("nebenordnende Konjunktion"), 
    KOKOM("Vergleichskonjunktion"), 
    NN("normales Nomen"), 
    NE("Eigennamen"), 
    PDS("substituierendes Demonstrativpronomen"), 
    PDAT("attribuierendes Demonstrativpronomen"), 
    PIS("substituierendes Indefinitpronomen"), 
    PIAT("attribuierendes Indefinitpronomen ohne Determiner"), 
    PIDAT("attribuierendes Indefinitpronomen mit Determiner"), 
    PPER("irreflexives Personalpronomen"), 
    PPOSS("substituierendes Possessivpronomen"), 
    PPOSAT("attribuierendes Possessivpronomen"), 
    PRELS("substituierendes Relativpronomen"), 
    PRELAT("attribuierendes Relativpronomen"), 
    PRF("reflexives Personalpronomen"), 
    PWS("substituierendes Interrogativpronomen"), 
    PWAT("attribuierendes Interrogativpronomen"), 
    PWAV("adverbiales Interrogativ- oder Relativpronomen"), 
    PAV("Pronominaladverb"), 
    PTKZU("zu vor Infinitiv"), 
    PTKNEG("Negationspartike"), 
    PTKVZ("abgetrennter Verbzusatz"), 
    PTKANT("Antwortpartikel"), 
    PTKA("Partikel bei Adjektiv oder Adverb"), 
    TRUNC("Kompositions-Erstglied"), 
    VVFIN("finites Verb, voll"), 
    VVIMP("Imperativ, voll"), 
    VVINF("Infinitiv"), 
    VVIZU("Infinitiv mit zu"), 
    VVPP("Partizip Perfekt"), 
    VAFIN("finites Verb, aux"), 
    VAIMP("Imperativ, aux"), 
    VAINF("Infinitiv, aux"), 
    VAPP("Partizip Perfekt"), 
    VMFIN("finites Verb, modal"), 
    VMINF("Infinitiv, modal"), 
    VMPP("Partizip Perfekt, modal"), 
    XY("Nichtwort, Sonderzeichen"), 
    UNDEFINED("Nicht definiert, zb. Satzzeichen"); 

    private final String desc; 

    private static final Map<String, POSGermanTag> nameToValueMap = new HashMap<String, POSGermanTag>(); 

    static { 
     for (POSGermanTag value : EnumSet.allOf(POSGermanTag.class)) { 
      nameToValueMap.put(value.name(), value); 
     } 
    } 

    public static POSGermanTag forName(String name) { 
     return nameToValueMap.get(name); 
    } 

    private POSGermanTag(String desc) { 
     this.desc = desc; 
    } 

    public String getDesc() { 
     return this.desc; 
    } 
} 
+0

Ho appena scoperto, che l'ultima versione di OpenNLP (1.6.0) ha ora anche "PROAV" come tag. Ho trovato mentre analizzavo il testo biomedico. Forse potresti aggiornare il codice dell'enum sopra per riflettere correttamente quel tag, magari come: 'PROAV (" Pronominaladverb ")' – MWiesner

Problemi correlati