2013-01-02 10 views
5

Prima di dirmi "cosa hai provato" e "testalo tu stesso", vorrei notare che gli aggiornamenti robots.txt rallentano terribilmente per il numero del mio sito , quindi se potessi fornire un'esperienza teorica, sarebbe apprezzato.Posso usare robots.txt per bloccare determinati parametri URL?

Ad esempio, è possibile consentire:

http://www.example.com 

e il blocco:

http://www.example.com/?foo=foo 

Io non sono molto sicuro.

Aiuto?

+1

si potrebbe tentare di utilizzare un emulatore di robot, ma utilizzando ** ** negare nel file robots.txt non significa tutti i robot lo seguiranno! –

risposta

6

Secondo Wikipedia, "I modelli robots.txt sono accompagnati da semplici paragoni sottostringa" e come la stringa GET è un URL si dovrebbe essere in grado di aggiungere solo:

Disallow: /?foo=foo 

o qualcosa di più di fantasia come

Disallow: /*?* 

per disabilitare tutte le stringhe. L'asterisco è un simbolo jolly in modo che corrisponda a uno o più caratteri di qualsiasi cosa.

Example of a robots.txt with dynamic urls.

+0

Basta chiedersi, è possibile bloccare tutti gli URL con '? Foo = foo', non solo la directory di base? – think123

+0

Certo se si rimuove la barra diretta, si abbinerà semplicemente alla stringa in qualsiasi punto dell'URL. –

+1

Si noti che il carattere jolly '*' non fa parte della specifica originale robots.txt. – unor

Problemi correlati