2009-06-26 13 views
10

Qualcuno può consigliare un buon libro (s)/carta (s)/articolo (s) sulla ricerca di testo completo (e forse indicizzazione in generale). Sono piuttosto ansioso di dover capire cosa succede dietro le quinte nelle mie applicazioni, e ho difficoltà a capire perché Sphinx e altri FTS esterni lasciano MySQL/MyISAM nella polvere.Primer per ricerca testo completo?

risposta

5

Per la comprensione della ricerca di testo completo dal basso verso l'alto, consiglio "Gestione di gigabyte".

http://www.cs.mu.oz.au/mg/

2

Vorrei iniziare con this. È per SQL Server, ma una lettura non guasta, dal momento che molti concetti diversi dai dettagli di implementazione saranno (molto probabilmente) uguali su tutti i DB.

3

Ho trovato la pagina di ricerca testo completo post-http://www.postgresql.org/docs/8.3/static/textsearch.html molto illuminante.

Soprattutto: http://www.postgresql.org/docs/8.3/static/textsearch-intro.html

operatori di ricerca testuale sono esistiti nei database per anni. PostgreSQL ha ~, ~ *, operatori come, e ILIKE per i tipi di dati testuali, ma mancano molte proprietà essenziali richiesti dai moderni sistemi di informazione:

  • non v'è alcun supporto linguistico, anche per l'inglese. Le espressioni regolari sono non sufficienti perché non possono gestire facilmente le parole derivate , ad esempio soddisfano e soddisfano. Potresti perdere i documenti che contengono soddisfazioni, anche se probabilmente ti piacerebbe trovarli nella ricerca di soddisfazione per . È possibile utilizzare OR per cercare per più moduli derivati, ma questo è noioso e soggetto a errori (alcune parole possono avere diverse migliaia di derivati ​​ ).
  • Non forniscono ordini (ranking) dei risultati di ricerca , che li rende inefficienti quando si trovano migliaia di documenti corrispondenti corrispondenti.
  • Tendono ad essere lenti perché non c'è il supporto per l'indice , quindi devono elaborare tutti i documenti per per ogni ricerca .
3

V'è un eccellente libera libro Information Retrieval (Christopher D. Manning, Prabhakar Raghavan e Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press. 2008), tra cui ricerca, disponibile gratuitamente (legit) here.

Problemi correlati