2011-12-12 18 views

risposta

9

Prova crawler4j. Hai solo bisogno di implementare una semplice interfaccia che controlli quali URL visitare e cosa fare con ciascuna pagina sottoposta a scansione.

+0

Ho problemi con la scansione di siti Web HTTPS che utilizzano questo crawler ("sito non è riuscito a rispondere "mentre si apre bene nel browser ecc.) – ed22

5

in java Penso che si riduce a Nutch vs Heritrix. Dovresti specificare quali sono le tue esigenze per ottenere una risposta migliore.

Problemi correlati