2011-01-19 11 views
6

Sto cercando un elenco completo di User-Agent di BOT (crawler, spider, twitter bot, ecc.).Come sapere se HTTP Request è un BOT

Sai qualcosa?

Grazie

+0

Cosa c'entra questo con la programmazione? – sbi

+0

Ne ho bisogno per filtrare le richieste HTTP – Himberjack

+2

Google go down dove vivi? Fortunatamente funziona per me. Ecco qua: [http://www.user-agents.org/](http://www.user-agents.org/). –

risposta

3

Per farla breve: non puoi, non c'è un proiettile d'argento. Qualsiasi bot può impostare la sua stringa user-agent su qualsiasi cosa, da "googlebot" a "spamalot".

Potete vederlo da soli, tutto quello che dovete fare è andare al primo sito indicato da Shinnok e iniziare a contare tutti i robot Googlebot/2.X elencati qui. Li blocchi, cambiano il nome del bot in parole senza senso casuali e così via. Alla fine ti ritroverai con un elenco di robot di 10k che ridurrà i tempi di caricamento degli utenti quando proverai a verificare se sono bot o meno.

+1

come fa Google in Analytics? – Himberjack

4

controllare questo elenco: http://www.botsvsbrowsers.com/category/1/index.html

Contiene un numero totale di 4768 agenti utente bot.

L'altro modo per realizzare il rilevamento dei bot è utilizzare l'approccio inverso in un modo white-list, ovvero verificare se l'agente utente non è un bot, quindi qualsiasi altra cosa è un bot. :-)

Per compilare un elenco completo di agenti non utente bot è possibile utilizzare gli elenchi a http://www.user-agents.org/ e http://www.botsvsbrowsers.com/.

+0

Un altro: http://www.useragentstring.com/pages/useragentstring.php – surfealokesea

Problemi correlati