Nutch: dati letti e aggiunta di metadati

Recentemente ho iniziato a cercare l'apache nutch. Potrei fare il setup e riuscire a scansionare pagine web di mio interesse con nutch. Non ho abbastanza comprensione su come leggere questi dati. Fondamentalmente voglio associare i dati di ciascuna pagina con alcuni metadati (alcuni dati casuali per ora) e memorizzarli localmente, che saranno poi utilizzati per la ricerca (semantica). Devo usare solr o lucene per lo stesso? Sono nuovo di tutti questi. Per quanto ne so, Nutch viene utilizzato per eseguire la scansione di pagine Web. Può fare alcune funzionalità aggiuntive come aggiungere metadati ai dati scansionati?Nutch: dati letti e aggiunta di metadati

fonte

2012-05-27 CRS

Hi CRS, dal momento che hai contrassegnato la tua domanda con 'semantic-web' Presumo che si desidera estrarre alcuni dati strutturati dalle pagine che si desidera eseguire la scansione (sia Microformats, RDFa e/o Microdata). Se questo è il caso, risparmierà un sacco di tempo guardando Any23 (http://incubator.apache.org/any23/) (che potrebbe essere integrato con Nutch e probabilmente qualcuno sta già provando a farlo o lo ha già fatto). – castagna

Grazie per la risposta. Daremo un'occhiata a Any23. In realtà sto eseguendo la scansione di pagine Web "normali". Non è associato a nessun metadata. Abbiamo un algoritmo che calcola i metadati dal testo da queste pagine web. Questi metadati dovrebbero essere aggiunti alla copia locale della pagina web. Quindi sto cercando un crawler che esegue la scansione delle pagine Web ed estrae il contenuto e quindi inserisce i metadati nella copia locale delle pagine Web. – CRS

Comandi utili.

Inizia crawl

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

ottenere statistiche di

bin/nutch readdb crawl/crawldb -stats

Leggi segmento di URL sottoposti a scansione (ottiene tutti i dati da pagine web)

bin/nutch readseg -dump crawl/segments/* segmentAllContent

Leggi segmento (ottiene solo il testo campo)

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -  noparse -noparsedata

Ottieni tutti gli elenchi di collegamenti noti a ciascun URL, inclusi sia l'URL di origine che il testo di ancoraggio del collegamento.

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent

Ottenere tutti gli URL sottoposti a scansione. Dà anche altre informazioni, come se sia stato recuperato, il tempo inverosimile, ora di modifica ecc

bin/nutch readdb crawl/crawldb/ -dump crawlContent

Per la seconda parte. Aggiungo un nuovo campo Ho intenzione di usare il plugin index-extra o di scrivere plugin personalizzati.

consultare:

this e this

fonte

2012-05-29 06:47:34 CRS

Nutch: dati letti e aggiunta di metadati

risposta

Problemi correlati