Sto lavorando a un programma che scarica pagine HTML e quindi seleziona alcune informazioni e le scrive in un altro file.Estrazione del testo da HTML Java
Voglio estrarre l'informazione che si trova tra i tag di paragrafo, ma posso ottenere solo una riga del paragrafo. Il mio codice è il seguente;
FileReader fileReader = new FileReader(file);
BufferedReader buffRd = new BufferedReader(fileReader);
BufferedWriter out = new BufferedWriter(new FileWriter(newFile.txt));
String s;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
try {
out.write(s);
} catch (IOException e) {
}
}
}
ho cercato di aggiungere un altro ciclo while, che dire al programma di continuare a scrivere su file fino a quando la riga contiene il tag </p>
, dicendo;
while ((s = br.readLine()) !=null) {
if(s.contains("<p>")) {
while(!s.contains("</p>") {
try {
out.write(s);
} catch (IOException e) {
}
}
}
}
Ma questo non funziona. Qualcuno potrebbe aiutarmi.
Sicuramente stiamo riscontrando un errore nella fuga di SO dei tag HTML. – Yishai
Stai citandoli come codice con i backtick? – pjp
I parser HTML esistono e ce ne sono molti. –