2011-11-19 9 views
5

Vorrei eseguire alcune elaborazioni del linguaggio naturale sulle ricette di cucina, in particolare sugli ingredienti (magari una preparazione successiva). Fondamentalmente sto cercando di creare il mio set di tag POS per aiutarmi a determinare il significato di una linea ingrediente.Mano taggare un set di allenamento con tag personalizzati

Per esempio, se uno degli ingredienti è stato: 3/4 di tazza (leggermente al sacco) foglie di prezzemolo a foglia liscia, divisi

vorrei tag per esprimere l'ingrediente essere elencati e la quanitity, che è di solito un numero seguito da alcune unità di misura. Per esempio:

3 \ NUM-QTY/\ FRACTION4 \ NUM-QTY cup \ N-MEAS (leggermente \ ADV imballato \ VD) [TV a foglia \ ADJ prezzemolo \ N] \ INGREDIENTE foglie \ N, diviso \ VD

I tag che ho trovato here.

Sono incerto su un paio di cose:

  1. Dovrei usare tag personalizzati, o dovrei fare una sorta di post-elaborazione-codifica dopo aver usato un tagger pre-esistente?
  2. Se uso tag personalizzati, è il modo migliore per fare un testo di formazione per passare semplicemente una lista di ingredienti e taggare tutto a mano?

Mi sento come se questa elaborazione del linguaggio è così specifica che sarebbe vantaggioso per addestrare un tagger su un insieme applicabile, ma io non sono esattamente sicuro di come procedere.

Grazie!

risposta

3

Utilizzare la libreria pattern.search.

La libreria di pattern python supporta molti tag [1], incluso un tag di numero cardinale (CD).

Una volta che avete etichettato cardinali, le frazioni sono "cardinal/cardinale" o qualcosa di simile "Cardinal Cardinal/cardinale".

E per quanto riguarda le quantità, è necessario costruire una tassonomia delle quantità di cottura. la libreria di pattern python supporta anche lemmatization [2].

penso utilizzando pattern.search [2] si potrebbe costruire un vincolo che si adatterebbe i dati e fare ricerche sul modello del testo di usarlo.

[1] http://www.clips.ua.ac.be/pages/mbsp-tags [2] http://www.clips.ua.ac.be/pages/pattern-search

+0

Incredibile roba - grazie. Ho già scritto la tassonomia, quindi ho solo bisogno di collegarlo a pattern.search. – abroekhof

Problemi correlati