2015-11-15 11 views
10

Sto cercando di configurare Apache Nutch per eseguire la scansione degli URL, seguendo la guida this. Essendo una guida più vecchia (La guida è per 1.x, sto usando 2.3), ho apportato le modifiche necessarie alla struttura. Tuttavia, quando si tenta di eseguire una scansione, ottengo questo errore:Apache Nutch - Problemi con i percorsi

[email protected]:~# /usr/local/nutch/framework/apache-nutch-2.3/src/bin/crawl urls FirstCrawl 2 
No SOLRURL specified. Skipping indexing. 
Injecting seed URLs 
/usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl 
Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob 
Error running: 
    /usr/local/nutch/framework/apache-nutch-2.3/src/bin/nutch inject urls -crawlId FirstCrawl 
Failed with exit value 1. 
[email protected]:~# 

Essendo nuovo Ubuntu (14.04), mi sto trovando difficoltà a gestire la struttura di directory e percorsi qui.

InjectorJob è in /usr/local/nutch/framework/apache-nutch-2.3/src/java/org/apache/nutch/crawl

JAVA_HOME è impostato su /usr/lib/jvm/java-7-openjdk-amd64

risposta

3

Assicurarsi che già compilare il codice sorgente Nutch. Quindi, esegui il comando di ricerca per indicizzazione da $ {APACHE_NUTCH_HOME}/runtime/local (o $ {APACHE_NUTCH_HOME}/runtime/deploy/bin).

Spero che questo aiuti,

Le Quoc Do

Problemi correlati