Sto cercando di recuperare il contenuto della tabella da un messaggio di errore. Ho bisogno del contenuto ma non dei tag <tr></tr>
. Non ho nemmeno bisogno di "tr" o "td" solo il contenuto. per esempio:Elimina tag html in sed o simili
<td> I want only this </td>
<tr> and also this </tr>
<TABLE> only texts/numbers in between tags and not the tags. </TABLE>
anche Vorrei mettere la prima uscita colonna come questo in un nuovo file csv column1, Info1, info2, Info3 coumn2, Info1, info2, Info3
Ho provato sed ai cancellatori cancellati <tr>
<td>
ma quando prendo tabella ci sono anche altri tag come <color>
<span>
ecc. quindi voglio cancellare tutti i tag; insomma tutto con < e>.
Quanto è regolare il contenuto? Potresti essere in grado di usare ['lynx'] (http://lynx.browser.org/) per afferrare la pagina e convertirla in testo e quindi analizzare il testo normale. Difficile dire senza ulteriori dettagli, lo scraping dello schermo tende ad essere una scelta tra vari brutti hack. –
ok questo ha risolto il primo problema ** sed -e 's/<.*> // g' input **. e al commento sopra ho wget'ed le pagine e ho raschiato solo la parte del tavolo. quindi il file contiene solo tag e dati di tabelle puliti. qualcosa come una routine per gli orari degli esami. – user913492