2010-07-28 12 views
6

Qualcuno ha integrato BeautifulSoup con ASP.NET/C# (possibilmente utilizzando IronPython o altro)? Esiste un BeautifulSoup un'alternativa o una porta che funziona bene con ASP.NET/C#BeautifulSoup e ASP.NET/C#

L'intento di progettazione per utilizzare la libreria è quello di estrarre leggibile testo da qualsiasi URL casuale.

Grazie

risposta

9

Html Agility Pack è un progetto simile, ma per C# e .NET


EDIT:

Per estrarre tutto il testo leggibile:

document.DocumentNode.InnerText 

Si noti che questo restituirà il contenuto del testo dei tag <script>.

Per rimediare, è possibile rimuovere tutti i <script> tag, in questo modo:

foreach(var script in doc.DocumentNode.Descendants("script").ToArray()) 
    script.Remove(); 
foreach(var style in doc.DocumentNode.Descendants("style").ToArray()) 
    style.Remove(); 

(Credit: SLaks)

+0

Come userei H AP per raschiare il testo leggibile da una pagina HTML. In BeautifulSoup, è molto facile farlo. – user300981

+0

Ho aggiornato la mia risposta –

+0

DocumentNode.InnerText ottiene tutto il testo all'interno dei tag . La mia preoccupazione è che devo supportare questo per gli URL che non seguono nessuno standard. Potrebbe esserci del gunk dappertutto. HAP è abbastanza intelligente da distinguere tra testo leggibile e tag HTML irrilevanti, commenti, script client – user300981

0

So che questo è abbastanza vecchio, ma ho deciso di pubblicare questo per Referenza futura. Mi sono imbattuto in questa ricerca di una soluzione simile.

ho trovato una libreria costruita sulla cima di Html Agility pacchetto chiamato scrapysharp

L'ho usato in maniera abbastanza simile come avrei BeautifulSoup https://bitbucket.org/rflechner/scrapysharp/wiki/Home