Avrete problemi di sicurezza che utilizzano JavaScript per interrogare un altro dominio che non è quello che ha pubblicato l'HTML.
Se è possibile scrivere il proprio servizio, la soluzione migliore (per scraping) è quella di inviare una query a questa pagina: http://www.google.com/ie. Fornisce HTML pulito che può essere analizzato con un'espressione regolare. Questa pagina è anche carina in quanto puoi passare in a 'num' parameter e ottenere più di 10 risultati alla volta. (Se stai cercando risultati perfetti, quando fai questo non otterrai esattamente gli stessi risultati di andare 10 alla volta).
Con un servizio come questo in esecuzione sul tuo server, il tuo codice JavaScript non avrà alcun problema, fino a quando Google non noterà troppe richieste provenienti dall'indirizzo IP del tuo server e deciderà di mettere in blacklist. ;)
Vorrei anche suggerire di utilizzare l'API di ricerca AJAX di Google, se si può vivere con esso è limitato a 64 risultati totali.
fonte
2009-05-23 01:00:26
http://www.google.com/ie - reindirizza alla pagina di download Chrome (il cromo/linux). –