2013-11-23 19 views
5

Ho cercato di utilizzare Nutch per eseguire il crawling sulla prima pagina dei domini nel mio file urls e quindi utilizzare Solr per rendere ricercabili le parole chiave nei dati scansionati. Finora non sono stato in grado di far funzionare nulla in questo modo, a meno che le due pagine non siano collegate tra loro.Nutch + Solr solo nella pagina di livello superiore

Mi rendo conto che questo è probabilmente un problema delle pagine che non hanno collegamenti in entrata, e quindi l'algoritmo PageRank scarta il contenuto della pagina. Ho provato a regolare i parametri in modo che il punteggio predefinito sia più alto per gli url non presenti nel grafico, ma sto ancora ottenendo gli stessi risultati.

C'è qualcosa che qualcuno sa di poter creare un indice su pagine senza collegamenti in entrata?

Grazie!

+1

È difficile capire (potrebbe essere solo io) come il tuo primo paragrafo (recuperare tramite nutch e contenuto in solr per la ricerca) è correlato al secondo (pagerank). Cosa stai cercando di fare esattamente? Una volta che il contenuto è indicizzato in solr con i campi ricercabili e i criteri configurati, dovrebbe funzionare indipendentemente dai collegamenti, a meno che tu non stia impostando un collegamento specifico. – Vishal

risposta

0

Provare un comando nutch inject per inserire l'URL "no-incomming-link" nel DB nutch.

Immagino che se non vedi nulla nei tuoi indici solr, è perché nessun dato per quegli URL è memorizzato nel DB nutch (dato che nutch si prenderà cura di sincronizzare il suo DB con gli indici). Non avere dati nel DB può essere spiegato dal fatto che gli URL sono isolati, quindi puoi provare il comando inject per includere quei siti.

Proverei a vedere effettivamente il DB interno per verificare il comportamento del nutch, poiché prima di inserire valori negli indici, nutch memorizza i dati all'interno dei suoi DB.

Assegnare un punteggio più alto non ha alcun effetto, poiché lucene ti darà un risultato finché i dati sono nell'indice.

0

Solr ora legge i file HTML utilizzando Tika per impostazione predefinita, quindi non è un problema.

http://wiki.apache.org/solr/TikaEntityProcessor

Se invece si è pagine elencate, c'è un motivo specifico per utilizzare il crawler Nutch? Oppure potresti semplicemente inviare URL a Solr e andare da lì?

Problemi correlati