2013-07-31 11 views
6

Sto utilizzando Nutch per eseguire la scansione di siti Web e voglio analizzare sezioni specifiche di pagine html sottoposte a scansione da Nutch. Ad esempio,Come analizzare il contenuto che si trova in tag HTML specifici usando il plugin nutch?

<h><title> title to search </title></h> 
    <div id="abc"> 
     content to search 
    </div> 
    <div class="efg"> 
     other content to search 
    </div> 

voglio analizzare div elemento con id = "abc" e class = "EFG" e così via.

So che devo creare un plug-in per l'analisi personalizzata poiché il plug-in htmlparser fornito da Nutch rimuove tutti i tag html, css e contenuto javascript e lascia solo il contenuto del testo. Mi sono riferito a questo blog http://sujitpal.blogspot.in/2009/07/nutch-custom-plugin-to-parse-and-add.html ma ho scoperto che questo è per l'analisi con tag html mentre voglio analizzare tag HTML con attributi con valore specifico. Ho trovato che Jericho è stato menzionato come utile per l'analisi di tag html specifici, ma ho trovato qualsiasi esempio per plugin nutch associato a Jericho.

ho bisogno di alcune indicazioni su come elaborare una strategia per l'analisi di pagine html sulla base dei tag con attributo avere valore specifico.

risposta

5

È possibile utilizzare questo plugin per estrarre dati da pagine sulla base di regole css:

https://github.com/BayanGroup/nutch-custom-search

Nel tuo esempio, è possibile configurare in questo modo:

<config> 
    <fields> 
     <field name="custom_content" /> 
    </fields> 
    <documents> 
     <document url=".+" engine="css"> 
      <extract-to field="custom_content"> 
       <text> 
        <expr value="#abc" /> 
       </text> 
       <text> 
        <expr value=".efg" /> 
       </text> 
      </extract-to> 
     </document> 
    </documents> 
</config> 
+0

Quando ho provato l'esempio precedente in 'extractors.xml', quindi Nutch non indicizzerà in Solr. Se funziona, rimuovo QUALSIASI elemento ''. il plugin non accetta più elementi ''? –

+0

Questo plugin non funziona con le versioni più recenti di Nutch, cioè versioni 2.X – horro

Problemi correlati