Quando corro nutch 1.10
con il seguente comando, supponendo che TestCrawl2
non esisteva e deve essere creato, precedentemente ...nutch percorso 1.10 immesso non esiste/linkdb/corrente
sudo -E bin/crawl -i -D solr.server.url=http://localhost:8983/solr/TestCrawlCore2 urls/ TestCrawl2/ 20
visualizzato un errore sull'indicizzazione che afferma:
Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/opt/apache-nutch-1.10/TestCrawl2/linkdb/current
La directory linkdb esiste, ma non contiene la directory 'corrente'. La directory è di proprietà di root quindi non dovrebbero esserci problemi di permessi. Poiché il processo è uscito da un errore, la directory linkdb contiene i file .locked
e .. locked.crc
. Se eseguo nuovamente il comando, questi file di blocco causano l'uscita nello stesso punto. Elimina la directory TestCrawl2
, risciacqua, ripeti.
Si noti che le installazioni nutch e solr stesse hanno eseguito in precedenza senza problemi in un'istanza TestCrawl
. È solo ora che ne sto provando uno nuovo che sto avendo problemi. Qualche suggerimento sulla risoluzione di questo problema?