2009-11-08 13 views
6

Ad esempio ...WordNet ha "livelli"? (PNL)

Il pollo è un animale .
Burrito è un alimento .

WordNet consente di eseguire "è-a" ... la funzione di ricerca.

Tuttavia, come faccio a sapere quando smettere di viaggiare sull'albero? Voglio un livello.
Ciò è coerente.

Ad esempio, se presentato con un gruppo di parole, voglio che wordNet li classifichi tutti, ma a un certo livello, quindi non va troppo in alto. Categorizzare "burrito" come "cosa" è troppo ampio, eppure "il cibo avvolto in Messico" è troppo specifico. Voglio salire alla ricerca o giù ... fino al livello giusto.

risposta

12

WordNet è un lessico piuttosto che un'ontologia, quindi i "livelli" in realtà non si applicano.

C'è SUMO, che è un'ontologia superiore che si riferisce a WordNet se si desidera un reticolo diretto anziché una rete.

Per alcuni domini, l'ontologia di medio livello di SUMO è probabilmente quella in cui si desidera guardare, ma non sono sicuro che abbia "cibo messicano", poiché la maggior parte dei suoi argomenti sono scientifici o di ingegneria.

gerarchia WordNet è

beef burrito < burrito < dish/2 < victuals < food < substance < entity. 

Entity è un concetto di alto livello, quindi se ci si ferma sostanza si otterrà il cibo burrito isa un seguito. È possibile calcolare un livello basato su quello, ma non sarà necessariamente coerente come SUMO, o generare il proprio insieme di concetti di medio livello utili a cui terminare. In WordNet non esiste un passaggio di "cibo confezionato messicano".

+0

La maggior parte di SUMO è scienza o ingegneria? Non contiene parole di tutti i giorni come cibi, persone, automobili, lavori, ecc.? – TIMEX

+0

SUMO è un'ontologia superiore. Le ontologie di medio livello (dove si troverebbero i concetti tra 'cosa' e 'manzo burrito') elencati nella pagina non includono cibo, ma riflettere i tipi di organizzazioni che finanziano il progetto. C'è un'ontologia di medio livello per le persone. Ce n'è anche una per le industrie (e quindi i posti di lavoro), compresi i fornitori di cibo, ma non si fa menzione dei burritos se lo si grep. –

+0

Grazie, Pete. f – TIMEX

2

Per ottenere livelli, è necessario predefinire il contenuto di ciascun livello. Un'ontologia spesso definisce questi come i bambini IS_A immediati di un concetto specifico, ma se questo è assente, è necessario sviluppare un metodo personale.

Il passaggio successivo consiste nel mettere una priorità su ciascun concetto, nel caso in cui si desideri presentare una sola categoria per ogni parola. La priorità può essere fatta in diversi modi, ad esempio come il conteggio delle relazioni IS_A tra la categoria e la parola, o le priorità selezionate manualmente per ciascuna categoria. Per ogni parola, puoi quindi scegliere la categoria con la priorità più alta. Ad esempio, potresti desiderare che la carne sia "cibo" piuttosto che sostanza chimica.

Si potrebbe anche voler scegliere alcune parole, che cambiano priorità se si trovano nel percorso. Per esempio, se vuoi che alcune sostanze chimiche, che sono anche cibo, vengano annunciate come sostanze chimiche, ma altre dovrebbero essere ancora cibo.

5

[Si prega di credito Pete Kirkham, ha raggiunto con il riferimento alla SUMO che potrebbe rispondere alla domanda posta da Alex, l'OP]

(sto solo fornendo un complemento di informazioni qui; I iniziato in un campo di commento ma presto esaurito spazio e layout capabiliti ...)

Alex: La maggior parte di SUMO è scienza o ingegneria? Non contiene parole di tutti i giorni come cibi, persone, automobili, lavori, ecc.?
Pete K: SUMO è un'ontologia superiore. Le ontologie di medio livello (dove si troverebbero i concetti tra 'cosa' e 'manzo burrito') elencati nella pagina non includono cibo, ma riflettere i tipi di organizzazioni che finanziano il progetto. C'è un'ontologia di medio livello per le persone. C'è anche uno per le industrie (e quindi posti di lavoro), tra cui fornitori di prodotti alimentari, ma non si parla di burritos se grep si.

I miei due centesimi
100% di WordNet (3.0 vale a dire l'ultimo, così come le versioni precedenti) è mappati di SUMO, e che possono essere proprio quello che Alex ha bisogno. Le ontologie di medio livello associate a SUMO (o meglio a MILO) sono effettivamente in domini specifici e, al momento, non includono Foodstuff, ma poiché WordNet (incluse tutte - bene, molte di queste cose quotidiane) lo fai non è necessario sfruttare alcuna ontologia formale "sotto" SUMO, ma invece utilizzare la mappatura WordNet di Sumo (possibilmente oltre a WordNet, che, ancora una volta, non è un'ontologia ma può essere d'aiuto anche con la sua "gerarchia" informale.

qualche difficoltà potrebbe sorgere, però, da due aree (e poi alcuni ;-)?):

  • "livello" del all'ontologia SUMO non può essere il livello si avrebbe in mente per una particolare applicazione. Ad esempio, mentre "Burrito" porta "alimentare", a entità di livello superiore in SUMO "pollo" porta bene "pollo", che solo attraverso una lunga catena trova "Animal" (in particolare: pollo- > l'avicoltura> bird-> Warm_Blooded_Vertebrae-> Vertebrae-> animale).
  • La copertura e i metadati di Wordnet sono impressionanti, ma per quanto riguarda i concetti di medio livello può essere un po 'incoerente. Ad esempio "il nostro" hypernym di Burrito è appropriatamente "Dish", che lo fornisce con circa 140 piatti di cibo, che includono generi come "Soup" o "Casserole" e "Chicken Marengo" (ma omettendo di dire "Chicken Cacciatore")

il mio punto, nel portare queste questioni, non è quello di criticare WordNet o SUMO e le sue ontologie correlate, ma piuttosto per illustrare semplicemente alcune delle sfide connesse con la costruzione di ontologia, in particolare a medio livello.

Indipendentemente da alcuni possibili difetti e mancanze di una soluzione basata su SUMO e WordNet, un uso pragmatico di questi quadri potrebbe "andare bene il disegno di legge" (85% del tempo) dell'albero hypernym

+0

Grazie per i chiarimenti.Se il mio obiettivo fosse scansionare un documento e vedere quali sono i prodotti alimentari, i posti di lavoro, gli hobby, gli interessi che ha questa persona ... come consiglieresti che io faccia questo? Sarebbe meglio trovare una lista di parole di "cibo" e una lista di parole di "hobby" e "sport"? Qual è il modo più pratico per farlo? – TIMEX

+0

@Alex: Poiché si prendono di mira relativamente pochi domini, prenderei in considerazione lo sviluppo di propri lessici. Potresti "innescare" questi estraendoli dalla mappa Wordnet di SUMO o da fonti simili. Probabilmente dovrai anche creare un elenco di entità con nome (come artisti, atleti, città, luoghi particolari ecc.). Sebbene la compilazione di tali elenchi non sia poco costosa, scoprirete che il dominio ridotto risultante consente una logica/logica euristica molto più sfavorevole per una precisione simile (o tipicamente migliore) e un richiamo nel taging. – mjv

0

di WordNet termina con un synset a radice singola per la parola "entità". Se si utilizza la libreria C di WordNet, è possibile ottenere una struttura ricorsiva per gli antenati di un synset utilizzando traceptrs_ds ed è possibile ottenere l'intero albero synset seguendo in modo ricorsivo i puntatori nextss e ptrlst finché non si preme il puntatore null.