2013-01-10 6 views

risposta

5

Semplicemente non puoi. È necessario ripetere la scansione della pagina per controllare se è aggiornata. Quindi, in base alle tue esigenze, dare la priorità alle pagine/domini e ricrearli in un periodo di tempo. Per questo è necessario un programmatore di lavoro come Quartz.

È necessario scrivere una funzione che confronta le pagine. Tuttavia, Nutch salva originariamente le pagine come file di indice. In altre parole, Nutch genera nuovi file binari per salvare HTML. Non penso sia possibile confrontare i file binari, dato che Nutch combina tutti i risultati della ricerca per indicizzazione all'interno di un singolo file. Se si desidera salvare le pagine in formato HTML grezzo per confrontare, vedere la mia risposta a this question.

+0

In che modo lo scheduler JOB confronta la scansione se è aggiornata o se è uguale? Voglio dire come il nutch o il solare paragonano il contenuto? –

+0

Modificata la risposta. –

+1

Quindi, ogni pagina deve essere controllata se ci sono alcune modifiche rispetto a quella vecchia e se ci sono nuove cose, allora la pagina verrà sottoposta a scansione. Se capisco bene, ho solo bisogno di una semplice funzione per confrontare le stringhe? –

4

è necessario pianificare ta di lavoro per la cottura del lavoro
Tuttavia, Nutch AdaptiveFetchSchedule dovrebbe consentire di eseguire la scansione e pagine di indice e rilevare se il la pagina è nuova o aggiornata e non è necessario eseguirla manualmente.

Article descrive lo stesso in dettaglio.

+0

Ok, ho letto l'articolo e ho un'altra domanda. Devo usare qualsiasi job sheduler per eseguire il mio comando per eseguire la scansione dell'url specificato o ho bisogno del programma di pianificazione Adaptive Fetch per farlo? E se l'Adaptive Fetch è quella giusta come posso usarla? –

+0

è possibile configurare la pianificazione adattiziale in config. E avresti bisogno di un programmatore per licenziare il lavoro, ad es. Autosys, quarzo, ecc. – Jayendra

+2

Dovrò essere in disaccordo con te qui. La classe che hai menzionato funziona in base alle intestazioni http del "crawler" "if-modified-since" e "last-modified" del crawler. E devo dire che nessuno dei siti intorno (eccetto google, youtube, stackoverflow, ecc.) Non deve essere considerato attendibile sulla veridicità di queste intestazioni. –

1

che dire http://pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch/

Questo è discusso su: How to recrawle nutch

Mi chiedo se la soluzione di cui sopra sarà davvero lavorare. Sto provando mentre parliamo. Eseguo la scansione dei siti di notizie e aggiornano la loro pagina iniziale abbastanza frequentemente, quindi ho bisogno di eseguire di nuovo la scansione dell'indice/della prima pagina spesso e di recuperare i collegamenti appena scoperti.

+0

Cosa stai pensando di raccomandare lo stesso articolo che è raccomandato in una risposta precedente? –

Problemi correlati