2014-04-18 14 views
5

Sto studiando il modello Okapi BMS25. Capisco tutto ma due confusione. Durante il calcolo della lunghezza del documento (dl) e della lunghezza media del documento (avdl). Ho trovato la lunghezza del documento èLunghezza documento media in Okapi BM25

enter image description here

Quindi è un riepilogo delle mie parole chiave/termini in un particolare documento. Ma quando vedo def del wiki:

enter image description here

Così | D | è la lunghezza del documento D in parole (vale a dire la somma delle parole totali). Ora, la domanda che cosa è effettivamente dl?

Ora, seconda domanda come calcolare avdl? (basta calcolare (doc1 + doc2 + ... N)/N dove N è il mio totale nessun documento in collezione? (e avdl è fisso per l'intera collezione?)

risposta

6

Secondo Joaquín Pérez-Iglesias in Integrating the Probabilistic Model BM25/BM25F into Lucene, la funzione punteggio R deve essere definito come segue:

enter image description here

come

  • occurs_t^d è la frequenza termine di t in d,
  • l_d è la lunghezza del documento d.
  • avl_d è la lunghezza media documento lungo la raccolta
  • k_1 è un parametro libero solitamente 2 e b in [0,1] (solitamente 0.75).

Assegnare 0 a b equivale ad evitare il processo di normalizzazione e pertanto la lunghezza del documento non influirà sul punteggio finale.

Se b richiede 1, eseguiremo una normalizzazione completa.

enter image description here

dove N è il numero del documento nella raccolta e df è il numero di documenti in cui compare il termine t.

+3

Davvero bello quando qualcuno si prende il tempo di spiegare la matematica. Cheers –

+0

Da dove viene fornito l'idf (t) nella formula R (q, d)? Dove viene utilizzato? – PaulSchell