2011-08-29 18 views
27

Non riesco a farlo funzionare, ma sembra davvero semplice.robots.txt consentire solo root, non consentire tutto il resto?

Voglio la radice di dominio per essere sottoposti a scansione

http://www.example.com 

Ma niente altro venga eseguita la scansione e tutte le sottodirectory sono dinamici

http://www.example.com/* 

ho cercato

User-agent: * 
Allow:/
Disallow: /*/ 

ma il webmaster di Google strumento di test dice che tutte le sottodirectory sono permesse.

Qualcuno ha una soluzione per questo? Grazie :)

+0

Provare a rimuovere la riga 'Allow' o metterla dopo il' Disallow'. I crawler dovrebbero fermarsi alla prima partita. –

+0

Brian ha ragione, le prime regole di corrispondenza, ma attenzione che non si può autorizzare tutto in questo modo, la "vista rapida" di Google non sarà in grado di caricare alcuna immagine o script, quindi la visualizzazione potrebbe essere alterata. Quindi forse avresti bisogno di creare almeno una singola cartella pubblica per avere la tua homepage ben visualizzata su "quick view". –

risposta

-2
User-agent: * 
Allow: index.html (or /index.php) 
Disallow:/

dovrebbe fare la magia.

+0

index.html (o .php) non è il percorso root "/" –

25

Secondo le definizioni di analisi Backus-Naur Form (BNF) in Google's robots.txt documentation, l'ordine delle direttive Allow e Disallow non importa. Quindi cambiare l'ordine in realtà non ti aiuterà.

Invece dovresti usare l'operatore $ per indicare la chiusura del tuo percorso.

Verificare questo file robots.txt. Sono certo che dovrebbe funzionare per voi (ho anche verificato in GWT):

user-agent: * 
Allow: /$ 
Disallow:/

Questo permetterà http://www.example.com e http://www.example.com/ venga eseguita la scansione, ma tutto il resto bloccato.

nota: che la direttiva Allow soddisfa il vostro particolare caso d'uso, ma se avete index.html o default.php, questi URL non verranno sottoposti a scansione.

nota a margine: Conosco solo i comportamenti di Googlebot e bingbot. Se ci sono altri motori a cui mirate, potrebbero o meno avere regole specifiche su come sono elencate le direttive. Quindi, se si vuole essere "extra" sicuri, è sempre possibile scambiare le posizioni dei blocchi di direttiva Allow e Disallow, li ho solo impostati in questo modo per sfatare alcuni dei commenti.

+0

È possibile eseguire la scansione solo della pagina principale? O anche http://www.example.com/electr/pr.html è OK? – gmlvsv

Problemi correlati