Ecco una descrizione molto semplice; per maggiori dettagli, puoi leggere questo libro di testo (gratuito online): http://informationretrieval.org/ ¹
1). Per tutti i file, crea un indice. L'indice è costituito da tutte le parole univoche che si verificano nel set di dati (chiamato "corpus"). Ad ogni parola è associata una lista di ID documento; ogni documento ID si riferisce a un documento che contiene la parola.
Variazioni: a volte quando si genera l'indice si desidera ignorare le parole di arresto ("a", "il", ecc.). Devi stare attento, però ("essere o non essere" è una vera query composta da stopword).
A volte si arginano anche le parole. Ciò ha un impatto maggiore sulla qualità della ricerca in lingue diverse dall'inglese che utilizzano suffissi e prefissi in misura maggiore.
2) Quando un utente inserisce una query, cerca gli elenchi corrispondenti e uniscili. Se si tratta di una query booleana stretta, il processo è piuttosto semplice - per AND, un docid deve comparire in tutte le liste di parole, per OR, in almeno un elenco di parole, ecc.
3) Se si desidera classificare i risultati, ci sono diversi modi per farlo, ma l'idea di base è quella di utilizzare la frequenza con cui si verifica una parola in un documento, rispetto alla frequenza che ci si aspetta verificarsi in qualsiasi documento nel corpus, come segnale che il documento è più o meno rilevante. Vedi il libro di testo.
4) È possibile anche posizioni negozio di parole per inferire frasi, ecc
La maggior parte di ciò è irrilevante per la ricerca desktop, come siete più interessati a richiamo (tutti i documenti che includono il termine) che la classifica.
¹ precedenza su http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html, raggiungibile attraverso una macchina Wayback
Il link che hai fornito è rotto. – kta