C# HTMLAgilityPack HTML to Text - Errori di errore

Ho bisogno di estrarre il testo da un file HTML usando C#. Sto cercando di utilizzare HTMLAgilityPack ma vedo alcuni errori di analisi (tag non chiusi). Sto usando queste due opzioni:C# HTMLAgilityPack HTML to Text - Errori di errore

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true;

C'è qualche "risolvere tutti" l'opzione tipo. Non mi importa degli errori, voglio solo il contenuto o chiudere.

fonte

2010-09-27 tvr

Forse questo è soluzione ma una volta che ho dovuto estrarre il testo da HTML Ho usato espressioni regolari:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " ");

fonte

2010-09-27 09:42:21 Ichibann

Grazie! Stavo cercando una soluzione HTMLAgilityPack in più ... – tvr

C# HTMLAgilityPack HTML to Text - Errori di errore

risposta

Problemi correlati