Supponiamo che ci siano alcuni frammenti HTML come:Come ottenere innerHTML di un nodo utilizzando il Selettore scrapy?
<a>
text in a
<b>text in b</b>
<c>text in c</c>
</a>
<a>
<b>text in b</b>
text in a
<c>text in c</c>
</a>
in cui voglio estrarre testi all'interno di tag con l'esclusione dei tag, mantenendo il loro testo, per esempio, il contenuto voglio estrarre sopra sarebbe come "text in un testo in b testo in c "e" testo in b testo in un testo inc ". Ora potrei ottenere i nodi usando la funzione scrapy Selector css(), quindi come posso procedere con questi nodi per ottenere quello che voglio? Qualsiasi idea sarebbe apprezzata, grazie!
Questo è grande, ma sono riuscito a fare da sel.css ("a") estratto() e quindi utilizzando regex da escludere. quei tag html – kuixiong
@kuixiong Grande! Nota che l'analisi di HTML con espressioni regolari è generalmente [non considerata una buona pratica] (http://stackoverflow.com/q/590747/390819). Se controlli quell'HTML ed è abbastanza semplice, vai avanti e usa regex. Altrimenti, considera di fare affidamento su strumenti specializzati. – GolfWolf