Recentemente ho iniziato a cercare l'apache nutch. Potrei fare il setup e riuscire a scansionare pagine web di mio interesse con nutch. Non ho abbastanza comprensione su come leggere questi dati. Fondamentalmente voglio associare i dati di ciascuna pagina con alcuni metadati (alcuni dati casuali per ora) e memorizzarli localmente, che saranno poi utilizzati per la ricerca (semantica). Devo usare solr o lucene per lo stesso? Sono nuovo di tutti questi. Per quanto ne so, Nutch viene utilizzato per eseguire la scansione di pagine Web. Può fare alcune funzionalità aggiuntive come aggiungere metadati ai dati scansionati?Nutch: dati letti e aggiunta di metadati
5
A
risposta
3
Comandi utili.
Inizia crawl
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
ottenere statistiche di
bin/nutch readdb crawl/crawldb -stats
Leggi segmento di URL sottoposti a scansione (ottiene tutti i dati da pagine web)
bin/nutch readseg -dump crawl/segments/* segmentAllContent
Leggi segmento (ottiene solo il testo campo)
bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate - noparse -noparsedata
Ottieni tutti gli elenchi di collegamenti noti a ciascun URL, inclusi sia l'URL di origine che il testo di ancoraggio del collegamento.
bin/nutch readlinkdb crawl/linkdb/ -dump linkContent
Ottenere tutti gli URL sottoposti a scansione. Dà anche altre informazioni, come se sia stato recuperato, il tempo inverosimile, ora di modifica ecc
bin/nutch readdb crawl/crawldb/ -dump crawlContent
Per la seconda parte. Aggiungo un nuovo campo Ho intenzione di usare il plugin index-extra o di scrivere plugin personalizzati.
consultare:
Problemi correlati
- 1. Aggiunta di metadati a jsTree
- 2. Aggiunta di dati metadati/identificatori in un file CSV?
- 3. Integrazione Apache Nutch e Solr
- 4. Ultime versioni compatibili di Nutch e Solr
- 5. Aggiunta e recupero dei metadati da percorsi Ember
- 6. Scrapy Vs Nutch
- 7. aggiunta di metadati al filtro nel framework django rest
- 8. Aggiunta di attributi di metadati alla tabella MySQL
- 9. limitare la quantità di dati letti con numpy.genfromtxt per matplotlib
- 10. Errore durante l'indicizzazione nei dati solr scansionati dal nutch
- 11. Nutch versus Solr
- 12. Organizzazione dei dati letti da Excel a Pandas DataFrame
- 13. Creazione di un frame di dati e aggiunta di righe
- 14. ifstream, byte letti?
- 15. Utilizzando nutch in Windows 7
- 16. dati Aggiunta dei Blob
- 17. Nutch-Cygwin Come impostare JAVA_HOME
- 18. Errore iCloud e dati principali (Ubiquity: non ha ottenuto i metadati della linea di base dall'URL dei metadati)
- 19. Contrassegno di messaggi SMS come letti/non letti o eliminazione di messaggi non funzionanti in KitKat
- 20. metadati di routing e servizio WCF
- 21. Ottenere dati JSON di JSTree, ed è metadati
- 22. Aggiunta di righe al set di dati
- 23. Quali PEP devono essere letti?
- 24. Aggiunta di più dati per inviare Dropzone.js
- 25. Aggiunta di dati ai tag XHTML
- 26. Aggiunta di attributi "dati-" con select2
- 27. Aggiunta di attributo all'entità in Dati principali
- 28. Come visualizzare i dati letti nel gestore di eventi DataReceived di serialport
- 29. Aggiunta annotazione ai punti di dati
- 30. metadati di override e di base dei metadati devono essere dello stesso tipo
Hi CRS, dal momento che hai contrassegnato la tua domanda con 'semantic-web' Presumo che si desidera estrarre alcuni dati strutturati dalle pagine che si desidera eseguire la scansione (sia Microformats, RDFa e/o Microdata). Se questo è il caso, risparmierà un sacco di tempo guardando Any23 (http://incubator.apache.org/any23/) (che potrebbe essere integrato con Nutch e probabilmente qualcuno sta già provando a farlo o lo ha già fatto). – castagna
Grazie per la risposta. Daremo un'occhiata a Any23. In realtà sto eseguendo la scansione di pagine Web "normali". Non è associato a nessun metadata. Abbiamo un algoritmo che calcola i metadati dal testo da queste pagine web. Questi metadati dovrebbero essere aggiunti alla copia locale della pagina web. Quindi sto cercando un crawler che esegue la scansione delle pagine Web ed estrae il contenuto e quindi inserisce i metadati nella copia locale delle pagine Web. – CRS