Ho usato 3 lingue per Web Scraping - Ruby, PHP e Python e onestamente nessuno di loro sembra perfetto per l'attività.C'è qualche lingua che è semplicemente "perfetta" per il web scraping?
Ruby ha un'eccellente libreria di analisi XML e di meccanizzazione, ma il supporto del foglio di calcolo è molto scarso.
PHP ha un eccellente foglio di calcolo e libreria di analisi HTML ma non ha un equivalente di WWW: Mechanize.
Python ha una libreria Mechanize molto scarsa. Ho avuto molti problemi e ancora non sono riuscito a risolverli. La sua libreria di fogli di calcolo è anche più o meno decente dal momento che non è in grado di creare file XLSX.
C'è qualcosa che è semplicemente perfetto per il webscraping.
PS: Sto lavorando su piattaforma Windows.
supporto per il formato Excel è una sorta di ortogonale al web scraping ... –
penso 'perfetto' è piuttosto soggettivo, tuttavia, hai provato .NET? Penso che la sua libreria di analisi XML sia abbastanza forte e che si possa legare in MSOffice abbastanza facilmente anche per il supporto di fogli di calcolo. – Tommy
@Tommy: ha un equivalente di Mechanize? L'avevo usato con WebBrowserControl ma l'ho trovato inefficiente. – Shubham