friend's Devo analizzare la descrizione dall'URL, dove il contenuto analizzato ha pochi tag html, quindi come posso convertirlo in testo normale.come convertire il testo HTML in testo normale?
risposta
Utilizzare un parser HTML come htmlCleaner
Per risposta dettagliata: How to remove HTML tag in Java
mi consiglia l'analisi del codice HTML grezzo attraverso jTidy che dovrebbe dare uscita che è possibile scrivere espressioni XPath. Questo è il modo più efficace che ho trovato di raschiare l'HTML.
Basta sbarazzarsi di tag HTML è semplice:
// replace all occurrences of one or more HTML tags with optional
// whitespace inbetween with a single space character
String strippedText = htmlText.replaceAll("(?s)<[^>]*>(\\s*<[^>]*>)*", " ");
Ma purtroppo i requisiti non sono mai così semplici:
Di solito, <p>
e <div>
elementi hanno bisogno di una gestione separata, ci possono essere blocchi CDATA con >
caratteri (ad es. Javascript) che confondono la regex ecc.
bene che hai chiarito tutta quella complessità! – ankitjaininfo
Per un po 'di background sul motivo per cui questo non funzionerà nel caso generale, e non sarà f (u | oo) l-proof: [RegEx match tag aperti tranne i tag XHTML autonomi] (http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags) –
È possibile utilizzare questa singola riga per rimuovere i tag html e visualizzarla come testo normale.
htmlString=htmlString.replaceAll("\\<.*?\\>", "");
Se si vuole analizzare come la visualizzazione del browser, utilizzare:
import net.htmlparser.jericho.*;
import java.util.*;
import java.io.*;
import java.net.*;
public class RenderToText {
public static void main(String[] args) throws Exception {
String sourceUrlString="data/test.html";
if (args.length==0)
System.err.println("Using default argument of \""+sourceUrlString+'"');
else
sourceUrlString=args[0];
if (sourceUrlString.indexOf(':')==-1) sourceUrlString="file:"+sourceUrlString;
Source source=new Source(new URL(sourceUrlString));
String renderedText=source.getRenderer().toString();
System.out.println("\nSimple rendering of the HTML document:\n");
System.out.println(renderedText);
}
}
Spero che questo vi aiuterà ad analizzare tavolo anche nel formato browser.
Grazie, Ganesh
I downvoters possono spiegare perché fanno downvote? – koppor
- 1. codici convertire HTML in testo normale
- 2. HTML vs Testo normale come corpo nell'email
- 3. HTML reso a testo normale usando Python
- 4. Come inserire testo normale?
- 5. Qt: Come aprire il file HTML come testo normale?
- 6. Come convertire HTML in testo usando jQuery?
- 7. Come convertire super o subscript in testo normale in C#
- 8. convertire HTML in testo con perl
- 9. Esiste un modulo Python per convertire RTF in testo normale?
- 10. Python: Come convertire testo formattato con markdown in testo
- 11. HTML in Symfony2 etichette forma al posto del testo normale
- 12. Come delineare il testo in HTML/CSS
- 13. Libreria per convertire il testo del documento Word in HTML
- 14. Come convertire il testo in percorsi SVG?
- 15. Come convertire il testo in Immagine?
- 16. Come convertire il testo in tracciati?
- 17. Tipo MIME per soddisfare HTML, email, immagini e testo normale?
- 18. Incolla il contenuto HTML come testo normale in div contenteditable utilizzando AngularJs
- 19. Come convertire reStructuredText in testo semplice
- 20. TextView Android in BOLD e testo normale
- 21. Registro di esportazione in formato testo normale
- 22. Evidenziare il testo, tranne i tag html
- 23. Convertire la stringa di testo HTML formattata in parti NSString
- 24. Come avvolgere il testo nell'opzione HTML
- 25. Come trasformare testo semplice in html JSX in ReactJS
- 26. Xcode apre il file xib come file di testo normale
- 27. Evidenziazione della sintassi per testo normale (testo sublime)
- 28. Come convertire la formula R in testo?
- 29. Ottieni testo normale da una QLabel con Rich text
- 30. React.js stampare testo come HTML
Quali sono i requisiti precisi? Hai bisogno di rimuovere i tag HTML? Estrai il contenuto di un tag specifico? –
posso in grado di estrarre il contenuto, ma il contenuto hanno
ZCC dsdfsf ddfdfsf
sfdfdfdfdf, come sopra sto ottenendo i miei dati, ma ho bisogno di essere un semplice pianura text.without questi tag html – MGSenthildomanda simile con buona risposta qui: http://stackoverflow.com/questions/1518675/open-source-java-library-for-html-to-text-conversion/1519726#1519726. Ho usato Jericho e funziona bene. –