2010-09-27 13 views
6

Ho bisogno di estrarre il testo da un file HTML usando C#. Sto cercando di utilizzare HTMLAgilityPack ma vedo alcuni errori di analisi (tag non chiusi). Sto usando queste due opzioni:C# HTMLAgilityPack HTML to Text - Errori di errore

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true; 

C'è qualche "risolvere tutti" l'opzione tipo. Non mi importa degli errori, voglio solo il contenuto o chiudere.

risposta

4

Forse questo è soluzione ma una volta che ho dovuto estrarre il testo da HTML Ho usato espressioni regolari:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " "); 
+2

Grazie! Stavo cercando una soluzione HTMLAgilityPack in più ... – tvr