Come utilizzerei Regex per estrarre il corpo da un documento html, tenendo conto che i tag html e body potrebbero essere in maiuscolo, in minuscolo o potrebbero non esistere?Regex Extract corpo html
risposta
Non utilizzare un'espressione regolare per questo - utilizzare qualcosa come lo Html Agility Pack.
Si tratta di un parser HTML agile che costruisce una lettura/scrittura DOM e supporta XPATH normale o XSLT (che in realtà non c'è bisogno di capire XPATH né XSLT per usarlo, non ti preoccupare. ..). È una libreria di codice .NET che consente di eseguire il file "fuori dal Web" HTML. Il parser è molto tollerante con l'HTML "reale mondo" non valido. Il modello dell'oggetto è molto simile a quello che propone System.Xml, ma per documenti HTML (o flussi ).
Quindi è possibile estrarre il body
con un XPATH.
Sono d'accordo. Ho usato questo e devo dire che è veloce, pulito e pulito. –
Questo dovrebbe farti molto vicino:
(?is)<body(?:\s[^>]*)>(.*?)(?:</\s*body\s*>|</\s*html\s*>|$)
Si prega di fornire la soluzione di dettaglio. – ShaileshDev
Che ne dite di qualcosa di simile?
Cattura tutto tra i tag <body></body>
(senza distinzione tra maiuscole e minuscole a causa di RegexOptions.IgnoreCase
) in un gruppo denominato theBody
.
RegexOptions.Singleline
ci consente di gestire HTML multilinea come una singola stringa.
Se l'HTML non contiene i tag <body></body>
, la proprietà Success
della corrispondenza sarà falsa.
string html;
// Populate the html string here
RegexOptions options = RegexOptions.IgnoreCase | RegexOptions.Singleline;
Regex regx = new Regex("<body>(?<theBody>.*)</body>", options);
Match match = regx.Match(html);
if (match.Success) {
string theBody = match.Groups["theBody"].Value;
}
- 1. python beautifulsoup iframe document html extract
- 2. Regex per abbinare il contenuto del corpo HTML in PHP
- 3. Interrompi la stringa in più colonne usando tidyr :: extract regex
- 4. DotNetZip BadReadException on .Extract
- 5. Extract/read React propTypes
- 6. Intellij Idea - Extract Class
- 7. Extract Method with continue
- 8. Intellij Extract Inner Class
- 9. Extract -webkit-transform matrix3d values
- 10. HTML, CSS - Disattiva scorrimento sul corpo
- 11. HTML vs Testo normale come corpo nell'email
- 12. Splinter salva il codice HTML senza corpo
- 13. Regex: Strip attributi HTML eccetto SRC
- 14. Sono ammessi valori ID HTML 4.01 regex
- 15. seleziona l'elemento di testo HTML con regex?
- 16. Regex - Converti HTML in tag XML valido
- 17. Regex - Corrispondenza attributo in un codice HTML
- 18. Come dimostrare un exploit di extract ($ _ POST)?
- 19. Perché extract() funziona con le funzioni?
- 20. Cosa c'è di così sbagliato con extract()?
- 21. Ottenere il contenuto del corpo HTML in WinForms WebBrowser dopo l'evento onload del corpo viene eseguito
- 22. corpo HTML è più piccolo rispetto ai suoi contenuti
- 23. altezza e larghezza su elementi HTML e corpo
- 24. Schema SMS iOS in collegamento ipertestuale HTML con corpo
- 25. globali di impostazione in formato HTML o corpo
- 26. Recupera corpo email/messaggio in html utilizzando l'API Gmail
- 27. modo migliore per attuare immagine di sfondo HTML o corpo
- 28. arrotondare gli angoli del corpo della tabella html
- 29. Utilizzo di sendmail per il corpo HTML e l'allegato binario
- 30. Metti i meta tag Schema Microdata nel corpo html?
Duplicato di http://stackoverflow.com/questions/356340/regolare-expression-to-extract-html-body-content? – M4N