Sto utilizzando Nutch per eseguire la scansione di siti Web e voglio analizzare sezioni specifiche di pagine html sottoposte a scansione da Nutch. Ad esempio,Come analizzare il contenuto che si trova in tag HTML specifici usando il plugin nutch?
<h><title> title to search </title></h>
<div id="abc">
content to search
</div>
<div class="efg">
other content to search
</div>
voglio analizzare div elemento con id = "abc" e class = "EFG" e così via.
So che devo creare un plug-in per l'analisi personalizzata poiché il plug-in htmlparser fornito da Nutch rimuove tutti i tag html, css e contenuto javascript e lascia solo il contenuto del testo. Mi sono riferito a questo blog http://sujitpal.blogspot.in/2009/07/nutch-custom-plugin-to-parse-and-add.html ma ho scoperto che questo è per l'analisi con tag html mentre voglio analizzare tag HTML con attributi con valore specifico. Ho trovato che Jericho è stato menzionato come utile per l'analisi di tag html specifici, ma ho trovato qualsiasi esempio per plugin nutch associato a Jericho.
ho bisogno di alcune indicazioni su come elaborare una strategia per l'analisi di pagine html sulla base dei tag con attributo avere valore specifico.
Quando ho provato l'esempio precedente in 'extractors.xml', quindi Nutch non indicizzerà in Solr. Se funziona, rimuovo QUALSIASI elemento ''. il plugin non accetta più elementi ''? –
Questo plugin non funziona con le versioni più recenti di Nutch, cioè versioni 2.X – horro