Ho cercato di utilizzare Nutch per eseguire il crawling sulla prima pagina dei domini nel mio file urls e quindi utilizzare Solr per rendere ricercabili le parole chiave nei dati scansionati. Finora non sono stato in grado di far funzionare nulla in questo modo, a meno che le due pagine non siano collegate tra loro.Nutch + Solr solo nella pagina di livello superiore
Mi rendo conto che questo è probabilmente un problema delle pagine che non hanno collegamenti in entrata, e quindi l'algoritmo PageRank scarta il contenuto della pagina. Ho provato a regolare i parametri in modo che il punteggio predefinito sia più alto per gli url non presenti nel grafico, ma sto ancora ottenendo gli stessi risultati.
C'è qualcosa che qualcuno sa di poter creare un indice su pagine senza collegamenti in entrata?
Grazie!
È difficile capire (potrebbe essere solo io) come il tuo primo paragrafo (recuperare tramite nutch e contenuto in solr per la ricerca) è correlato al secondo (pagerank). Cosa stai cercando di fare esattamente? Una volta che il contenuto è indicizzato in solr con i campi ricercabili e i criteri configurati, dovrebbe funzionare indipendentemente dai collegamenti, a meno che tu non stia impostando un collegamento specifico. – Vishal