Chiunque ha una buona soluzione per raschiare il codice sorgente HTML di una pagina con contenuti (in questo caso tabelle HTML) generati con Javascript?Chiunque ha una buona soluzione per raschiare il codice sorgente HTML di una pagina con contenuti (in questo caso tabelle HTML) generati con Javascript?
Un imbarazzante semplice, anche se soluzione praticabile utilizzando Crowbar:
<?php
function get_html($url) // $url must be urlencode(d)
{
$context = stream_context_create(array(
'http' => array('timeout' => 120) // HTTP timeout in seconds
));
$html = substr(file_get_contents('http://127.0.0.1:10000/?url=' . $url . '&delay=3000&view=browser', 0, $context), 730, -32); // substr removes HTML from the Crowbar web service, returning only the $url HTML
return $html;
}
?>
Il vantaggio di utilizzare Crowbar è che i tavoli saranno resi (e accessibile), grazie al browser Mozilla-based senza testa. Modifica: scoperto che il problema con Crowbar era un'app in conflitto, non il tempo di inattività del server, che era solo una coincidenza.