ho una serie di espressioni come:testo estratto tra certi simboli uso delle espressioni regolari in R
"<i>the text I need to extract</i></b></a></div>"
ho bisogno di estrarre il testo tra i "simboli" <i>
e </i>
. Questo è, il risultato dovrebbe essere:
"the text I need to extract"
Al momento sto utilizzando gsub in R per rimuovere manualmente tutti i simboli che non sono testo. Tuttavia, mi piacerebbe usare un'espressione regolare per fare il lavoro. Qualcuno conosce un'espressione regolare per estrarre il numero compreso tra <i>
e </i>
?
Grazie.
+1 per aver ricordato un parser HTML deve essere utilizzato per questo testo –