2013-02-12 19 views
8

Scorro alcuni siti con Apache Nutch 2.1.Apache Nutch 2.1 ID lotto diverso (null)

Durante la scansione vedo il seguente messaggio su molte pagine:
ex. Salta http://www.domainname.com/news/subcategory/111111/index.html; ID batch diverso (null).

Che cosa causa questo errore?
Come posso risolvere questo problema, perché le pagine con ID batch diverso (null) non sono memorizzate nel database.

Il sito che ho sottoposto a scansione è basato su drupal, ma ho provato su molti altri siti non drupal.

+0

Sei stato in grado di risolvere questo? – darksky

+0

No. Ho provato diverse settimane, ma senza successo. Successivamente ho smesso di usare Nutch. Come alternativa è possibile utilizzare il crawler php: [collegamento] (http://www.sphider.eu/download.php) [collegamento] (http://www.sphider-plus.eu/) –

+0

ho trovato una soluzione che si adatta alle mie esigenze. Anche lo scrapey di Python è fantastico: http://scrapy.org/ – darksky

risposta

1

Penso che il messaggio non sia un problema. batch_id non assegnato a tutto l'url. Quindi, se batch_id è nullo, salta l'url. Genera url quando batch_id viene assegnato per l'url.