Ho sottoposto a scansione un URL con Nutch 2.1 e quindi desidero eseguire nuovamente la scansione delle pagine dopo l'aggiornamento. Come posso fare questo? Come posso sapere che una pagina viene aggiornata?URL di riesecuzione con Nutch solo per i siti aggiornati
risposta
Semplicemente non puoi. È necessario ripetere la scansione della pagina per controllare se è aggiornata. Quindi, in base alle tue esigenze, dare la priorità alle pagine/domini e ricrearli in un periodo di tempo. Per questo è necessario un programmatore di lavoro come Quartz.
È necessario scrivere una funzione che confronta le pagine. Tuttavia, Nutch salva originariamente le pagine come file di indice. In altre parole, Nutch genera nuovi file binari per salvare HTML. Non penso sia possibile confrontare i file binari, dato che Nutch combina tutti i risultati della ricerca per indicizzazione all'interno di un singolo file. Se si desidera salvare le pagine in formato HTML grezzo per confrontare, vedere la mia risposta a this question.
è necessario pianificare ta di lavoro per la cottura del lavoro
Tuttavia, Nutch AdaptiveFetchSchedule dovrebbe consentire di eseguire la scansione e pagine di indice e rilevare se il la pagina è nuova o aggiornata e non è necessario eseguirla manualmente.
Article descrive lo stesso in dettaglio.
Ok, ho letto l'articolo e ho un'altra domanda. Devo usare qualsiasi job sheduler per eseguire il mio comando per eseguire la scansione dell'url specificato o ho bisogno del programma di pianificazione Adaptive Fetch per farlo? E se l'Adaptive Fetch è quella giusta come posso usarla? –
è possibile configurare la pianificazione adattiziale in config. E avresti bisogno di un programmatore per licenziare il lavoro, ad es. Autosys, quarzo, ecc. – Jayendra
Dovrò essere in disaccordo con te qui. La classe che hai menzionato funziona in base alle intestazioni http del "crawler" "if-modified-since" e "last-modified" del crawler. E devo dire che nessuno dei siti intorno (eccetto google, youtube, stackoverflow, ecc.) Non deve essere considerato attendibile sulla veridicità di queste intestazioni. –
che dire http://pascaldimassimo.com/2010/06/11/how-to-re-crawl-with-nutch/
Questo è discusso su: How to recrawle nutch
Mi chiedo se la soluzione di cui sopra sarà davvero lavorare. Sto provando mentre parliamo. Eseguo la scansione dei siti di notizie e aggiornano la loro pagina iniziale abbastanza frequentemente, quindi ho bisogno di eseguire di nuovo la scansione dell'indice/della prima pagina spesso e di recuperare i collegamenti appena scoperti.
Cosa stai pensando di raccomandare lo stesso articolo che è raccomandato in una risposta precedente? –
- 1. Apache Nutch - Problemi con i percorsi
- 2. Nutch + Solr solo nella pagina di livello superiore
- 3. Solo rsync riporta i file che sono stati aggiornati
- 4. Android: ricevi solo contatti aggiornati e cancellati
- 5. Utilizzo siti Web di siti Web di Azure per più siti Web con le stesse DLL
- 6. tcpdump per Solo gli URL di stampa
- 7. Perché alcuni siti usano jquery con $ j invece di solo $?
- 8. Il socket.io riconnette la connessione di riesecuzione?
- 9. Scrapy Vs Nutch
- 10. ottenere l'adesione semplice per lavorare con i siti web azzurre
- 11. cattivi URL da altri siti fb_xd_fragment = reindirizzare
- 12. Apache Nutch 2.1 ID lotto diverso (null)
- 13. Vantaggi/svantaggi per i siti Web generati con Javascript
- 14. I migliori siti Web per i modelli di progettazione?
- 15. Esistono libri o siti Web aggiornati sull'API nativa di Windows NT?
- 16. Nutch versus Solr
- 17. URL convalida REGEX - URL solo valida con http: //
- 18. Incluso javascript per i siti google
- 19. Siti per i programmatori Delphi iniziali
- 20. Come ottenere QMake per copiare file di dati di grandi dimensioni solo se aggiornati
- 21. I sottomoduli Force Git per essere sempre aggiornati
- 22. Come impostare firebug per l'esecuzione solo su determinati siti?
- 23. Come abbinare solo gli ultimi record aggiornati in Doctrine?
- 24. Come estendere la Nutch per lo strisciante degli articoli
- 25. I file della scheda SD aggiornati in modo programmatico non vengono aggiornati in Windows Explorer
- 26. Nutch: dati letti e aggiunta di metadati
- 27. rimuovere i caratteri da URL con htaccess
- 28. SVN mostra i file nella directory di lavoro non aggiornati
- 29. Dimensioni migliori per i modelli di siti Web PSD?
- 30. supporto tumblr haembed per i siti di video - whitelist?
In che modo lo scheduler JOB confronta la scansione se è aggiornata o se è uguale? Voglio dire come il nutch o il solare paragonano il contenuto? –
Modificata la risposta. –
Quindi, ogni pagina deve essere controllata se ci sono alcune modifiche rispetto a quella vecchia e se ci sono nuove cose, allora la pagina verrà sottoposta a scansione. Se capisco bene, ho solo bisogno di una semplice funzione per confrontare le stringhe? –