2015-11-03 10 views
6

Quando corro nutch 1.10 con il seguente comando, supponendo che TestCrawl2 non esisteva e deve essere creato, precedentemente ...nutch percorso 1.10 immesso non esiste/linkdb/corrente

sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20 

visualizzato un errore sull'indicizzazione che afferma:

Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current 

La directory linkdb esiste, ma non contiene la directory 'corrente'. La directory è di proprietà di root quindi non dovrebbero esserci problemi di permessi. Poiché il processo è uscito da un errore, la directory linkdb contiene i file .locked e .. locked.crc. Se eseguo nuovamente il comando, questi file di blocco causano l'uscita nello stesso punto. Elimina la directory TestCrawl2, risciacqua, ripeti.

Si noti che le installazioni nutch e solr stesse hanno eseguito in precedenza senza problemi in un'istanza TestCrawl. È solo ora che ne sto provando uno nuovo che sto avendo problemi. Qualche suggerimento sulla risoluzione di questo problema?

risposta

3

Ok, sembra che ho incontrato una versione di questo problema:

https://issues.apache.org/jira/browse/NUTCH-2041

che è il risultato dello script crawl non essere a conoscenza di modifiche per ignore_external_links mia nutch-site.xml file.

Sto cercando di strisciare diversi siti e speravo di mantenere la mia vita semplice ignorando link esterni e lasciando regex-urlfilter.txt alone (solo usando +.)

Ora sembra che dovrò cambia ignore_external_links di nuovo in falso e aggiungi un filtro regex per ciascuno dei miei url. Spero di riuscire presto a ottenere una versione 1.11. Sembra che questo sia stato risolto lì.

Problemi correlati