2009-10-21 20 views

risposta

38

Chunking è anche chiamato parsing superficiale ed è fondamentalmente l'identificazione di parti del discorso e frasi brevi (come le frasi nominali). Part of speech tagging ti dice se le parole sono nomi, verbi, aggettivi, ecc, ma non ti dà alcun indizio sulla struttura della frase o delle frasi nella frase. A volte è utile avere più informazioni che solo le parti del discorso delle parole, ma non è necessario l'intero albero di analisi che si otterrebbe dall'analisi.

Un esempio di quando il chunking potrebbe essere preferibile è Named Entity Recognition. In NER, il vostro obiettivo è quello di trovare entità con nome, che tendono ad essere sostantivo frasi (anche se non sono sempre), quindi si vorrebbe sapere che il presidente Barack Obama è nella seguente frase:

Il presidente Barack Obama, lo, ha criticato le compagnie di assicurazione e le banche mentre ha esortato i sostenitori a spingere il Congresso a sostenere le sue mosse per rinnovare il sistema sanitario e revisionare i regolamenti finanziari. (source)

Ma non ti interessa necessariamente che sia l'oggetto della frase.

Il chunking è stato anche comunemente usato come fase di pre-elaborazione per altre attività come la traduzione automatica basata su esempi, la comprensione del linguaggio naturale, la generazione del parlato e altro.

6

Per "frammentazione del testo" nell'elaborazione del linguaggio naturale, vedere here (probabilmente si desidera tutte le conferenze di questa serie come una sorta di "NLP 101" ...): comprende una serie di attività come la ricerca di gruppi di nomi , trovare gruppi di verbi e completare la frase di partizionamento -> blocchi di diversi tipi. La conferenza di cui ho citato l'URL va più in dettaglio!

+0

Risposta in un altro castello? Probabilmente dovrebbe essere fatto un commento piuttosto che una risposta. –

0

Raggruppamento di parole in frasi sintatticamente correlate (blocchi). NB: l'etichettatura IOB può essere utilizzata per indicare i limiti del chunk.

Problemi correlati