Un CRF è un modello discriminante, batch, di codifica, nella stessa famiglia generale del modello di Markov di Entropia massimo.
Una spiegazione completa è la lunghezza del libro.
Una breve spiegazione è la seguente:
- Gli esseri umani annotare 200-500K parole di testo, che segna le entità.
- Gli esseri umani selezionano una serie di funzioni che, a loro avviso, indicano entità. Cose come la maiuscola, o se la parola è stata vista nel set di allenamento con un tag.
- Una procedura di addestramento conta tutte le occorrenze delle funzionalità.
- La carne dell'algoritmo CRF ricerca lo spazio di tutti i modelli possibili che si adattano ai conteggi per trovarne uno abbastanza buono.
- In fase di esecuzione, un decodificatore (probabilmente un decodificatore di Viterbi) esamina una frase e decide quale etichetta assegnare a ciascuna parola.
le parti dure di questo sono funzionalità di selezione e l'algoritmo di ricerca nel passaggio 4.