2012-05-27 11 views
5

Recentemente ho iniziato a cercare l'apache nutch. Potrei fare il setup e riuscire a scansionare pagine web di mio interesse con nutch. Non ho abbastanza comprensione su come leggere questi dati. Fondamentalmente voglio associare i dati di ciascuna pagina con alcuni metadati (alcuni dati casuali per ora) e memorizzarli localmente, che saranno poi utilizzati per la ricerca (semantica). Devo usare solr o lucene per lo stesso? Sono nuovo di tutti questi. Per quanto ne so, Nutch viene utilizzato per eseguire la scansione di pagine Web. Può fare alcune funzionalità aggiuntive come aggiungere metadati ai dati scansionati?Nutch: dati letti e aggiunta di metadati

+0

Hi CRS, dal momento che hai contrassegnato la tua domanda con 'semantic-web' Presumo che si desidera estrarre alcuni dati strutturati dalle pagine che si desidera eseguire la scansione (sia Microformats, RDFa e/o Microdata). Se questo è il caso, risparmierà un sacco di tempo guardando Any23 (http://incubator.apache.org/any23/) (che potrebbe essere integrato con Nutch e probabilmente qualcuno sta già provando a farlo o lo ha già fatto). – castagna

+0

Grazie per la risposta. Daremo un'occhiata a Any23. In realtà sto eseguendo la scansione di pagine Web "normali". Non è associato a nessun metadata. Abbiamo un algoritmo che calcola i metadati dal testo da queste pagine web. Questi metadati dovrebbero essere aggiunti alla copia locale della pagina web. Quindi sto cercando un crawler che esegue la scansione delle pagine Web ed estrae il contenuto e quindi inserisce i metadati nella copia locale delle pagine Web. – CRS

risposta

3

Comandi utili.

Inizia crawl

bin/nutch crawl urls -dir crawl -depth 3 -topN 5 

ottenere statistiche di

bin/nutch readdb crawl/crawldb -stats 

Leggi segmento di URL sottoposti a scansione (ottiene tutti i dati da pagine web)

bin/nutch readseg -dump crawl/segments/* segmentAllContent 

Leggi segmento (ottiene solo il testo campo)

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -  noparse -noparsedata 

Ottieni tutti gli elenchi di collegamenti noti a ciascun URL, inclusi sia l'URL di origine che il testo di ancoraggio del collegamento.

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent 

Ottenere tutti gli URL sottoposti a scansione. Dà anche altre informazioni, come se sia stato recuperato, il tempo inverosimile, ora di modifica ecc

bin/nutch readdb crawl/crawldb/ -dump crawlContent 

Per la seconda parte. Aggiungo un nuovo campo Ho intenzione di usare il plugin index-extra o di scrivere plugin personalizzati.

consultare:

this e this

Problemi correlati