Per prima cosa è necessario addestrare i dati con l'Entità richiesta.
Le frasi devono essere separate con il carattere di nuova riga (\ n). I valori dovrebbero essere separati da e tag con un carattere di spazio.
Diciamo che si desidera creare modello di entità di medicina, quindi i dati dovrebbero essere qualcosa di simile:
<START:medicine> Augmentin-Duo <END> is a penicillin antibiotic that contains two medicines - <START:medicine> amoxicillin trihydrate <END> and
<START:medicine> potassium clavulanate <END>. They work together to kill certain types of bacteria and are used to treat certain types of bacterial infections.
si può fare riferimento un campione dataset per esempio. I dati di allenamento dovrebbero avere almeno 15000 frasi per ottenere risultati migliori.
Inoltre è possibile utilizzare Opennlp TokenNameFinderTrainer. Il file di output sarà nel formato .bin.
Ecco l'esempio: Writing a custom NameFinder model in OpenNLP
Per ulteriori informazioni, consultare il Opennlp documentation
fonte
2016-06-08 07:27:13
Per quale strumento stai creando un modello? – wcolen