Vorrei racimolare il contenuto di questo Google search result page usando l'arricciatura. Ho provato a impostare diversi programmi utente e ad impostare altre opzioni, ma non riesco a ottenere il contenuto di quella pagina, perché spesso mi viene reindirizzato o ottengo un errore di "pagina spostata".Come ottenere il contenuto della pagina usando cURL?
Credo che abbia qualcosa a che fare con il fatto che la stringa di query viene codificata da qualche parte ma non sono proprio sicuro di come aggirarlo.
//$url is the same as the link above
$ch = curl_init();
$user_agent='Mozilla/5.0 (Windows NT 6.1; rv:8.0) Gecko/20100101 Firefox/8.0'
curl_setopt ($ch, CURLOPT_URL, $url);
curl_setopt ($ch, CURLOPT_USERAGENT, $user_agent);
curl_setopt ($ch, CURLOPT_HEADER, 0);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt ($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt ($ch,CURLOPT_CONNECTTIMEOUT,120);
curl_setopt ($ch,CURLOPT_TIMEOUT,120);
curl_setopt ($ch,CURLOPT_MAXREDIRS,10);
curl_setopt ($ch,CURLOPT_COOKIEFILE,"cookie.txt");
curl_setopt ($ch,CURLOPT_COOKIEJAR,"cookie.txt");
echo curl_exec ($ch);
Che cosa devo fare per ottenere il mio codice php per mostrare l'esatto contenuto della pagina come vorrei vederlo il mio browser? Cosa mi manca? Qualcuno può indicarmi la giusta direzione?
Ho visto domande simili su SO, ma nessuna con una risposta che potrebbe aiutarmi.
EDIT:
ho provato ad aprire solo il collegamento mediante il selenio WebDriver, che dà gli stessi risultati come cURL. Sto ancora pensando che questo abbia a che fare con il fatto che ci sono caratteri speciali nella stringa di query che vengono incasinati da qualche parte nel processo.
$ output = curl_exec ($ ch); echo $ output; –
@BojanKovacevic Ho modificato il codice per mostrare che sto facendo 'echo curl_exec ($ ch);' Ricevo una pagina restituita ma non quella che sto richiedendo. – 7usam
Non puoi analizzare i risultati di ricerca di Google - I risultati di Google sono il loro IP principale, non lo daranno via! - indipendentemente da ciò che fai al tuo codice, dovrai affrontare molti (MOLTI!) altri problemi, tra i quali almeno un IP in lista nera. Se stai cercando di monitorare i risultati di ricerca o SEO o simili, utilizza un software di monitoraggio adeguato come http://www.seomoz.org/ – LuckySpoon