2010-05-12 12 views
7

Attualmente sto raccogliendo informazioni dove dovrei usare Nutch con Solr (dominio - ricerca web verticale).Nutch versus Solr

Potrebbe suggerirmi?

risposta

14

Nutch è un framework per la creazione di web crawler e motori di ricerca. Nutch può fare l'intero processo dalla raccolta delle pagine web alla costruzione dell'indice invertito. Può anche spingere quegli indici a Solr.

Solr è principalmente un motore di ricerca con supporto per le ricerche sfaccettate e molte altre caratteristiche. Ma Solr non recupera i dati, devi nutrirlo.

Quindi forse la prima cosa che devi chiedere per scegliere tra i due è se i dati da indicizzare sono già disponibili o meno (in XML, in un CMS o in un database). In tal caso, probabilmente dovresti semplicemente usare Solr e alimentarlo con quei dati. D'altra parte, se devi recuperare i dati dal web, probabilmente stai meglio con Nutch.

+0

Devo recuperare i dati dal web, ma in modo più sofisticato rispetto al crawler di Nutch. E come so, è molto difficile modificare il crawler di Nutch (ad esempio per ignorare robots.txt, rilevare js-redirect e così via). La mia scelta è Solr? Che cosa può Solr che Nutch non può? – Jeriho

+1

Come ho già detto, Solr è un motore di ricerca. Non c'è nulla in esso per eseguire la scansione del web. Ma se hai un crawler proprietario che funziona bene per te, dovrebbe essere facile inviare i dati a Solr. –