Come si analizzano in modo intelligente i dati restituiti dai risultati di ricerca su una pagina?Modo "intelligente" di analisi e utilizzo dei dati del sito web?
Ad esempio, diciamo che mi piacerebbe creare un servizio Web che cerchi libri online analizzando i risultati di ricerca di molti siti web di book provider. Potrei ottenere i dati HTML grezzi della pagina e fare alcune regex per far funzionare i dati per il mio servizio web, ma se uno qualsiasi dei siti cambia la formattazione delle pagine, il mio codice si rompe!
RSS è davvero un'opzione meravigliosa, ma molti siti non hanno una ricerca basata su XML/JSON.
Esistono kit che aiutano a diffondere automaticamente le informazioni sulle pagine? Una pazza idea sarebbe quella di avere un modulo AI sfocata riconoscere i modelli su una pagina dei risultati di ricerca, e analizzare i risultati di conseguenza ...
per quanto riguarda la lingua, sono avanzato in php, ma sono disposto ad usare asp.net se necessario. grazie per tutte le risposte! – bluebit
Una buona espressione regolare può essere sorprendentemente flessibile e tollerante in uso. Una buona tecnica è quella di abbinare un'area * prima * di un elemento di dati, quindi inserire i dati in un gruppo di cattura con un quantificatore pigro, quindi abbinare un'area * dopo * i dati. Se definisci le corrispondenze prima/dopo in modo flessibile, possono gestire molto bene le modifiche nella formattazione. www.regular-expressions.info offre alcune buone spiegazioni su questa e altre tecniche. – BobMcGee