Secondo le definizioni di analisi Backus-Naur Form (BNF) in Google's robots.txt documentation, l'ordine delle direttive Allow
e Disallow
non importa. Quindi cambiare l'ordine in realtà non ti aiuterà.
Invece dovresti usare l'operatore $
per indicare la chiusura del tuo percorso.
Verificare questo file robots.txt. Sono certo che dovrebbe funzionare per voi (ho anche verificato in GWT):
user-agent: *
Allow: /$
Disallow:/
Questo permetterà http://www.example.com
e http://www.example.com/
venga eseguita la scansione, ma tutto il resto bloccato.
nota: che la direttiva Allow
soddisfa il vostro particolare caso d'uso, ma se avete index.html
o default.php
, questi URL non verranno sottoposti a scansione.
nota a margine: Conosco solo i comportamenti di Googlebot e bingbot. Se ci sono altri motori a cui mirate, potrebbero o meno avere regole specifiche su come sono elencate le direttive. Quindi, se si vuole essere "extra" sicuri, è sempre possibile scambiare le posizioni dei blocchi di direttiva Allow
e Disallow
, li ho solo impostati in questo modo per sfatare alcuni dei commenti.
Provare a rimuovere la riga 'Allow' o metterla dopo il' Disallow'. I crawler dovrebbero fermarsi alla prima partita. –
Brian ha ragione, le prime regole di corrispondenza, ma attenzione che non si può autorizzare tutto in questo modo, la "vista rapida" di Google non sarà in grado di caricare alcuna immagine o script, quindi la visualizzazione potrebbe essere alterata. Quindi forse avresti bisogno di creare almeno una singola cartella pubblica per avere la tua homepage ben visualizzata su "quick view". –