robots.txt consentire solo root, non consentire tutto il resto?

Non riesco a farlo funzionare, ma sembra davvero semplice.robots.txt consentire solo root, non consentire tutto il resto?

Voglio la radice di dominio per essere sottoposti a scansione

http://www.example.com

Ma niente altro venga eseguita la scansione e tutte le sottodirectory sono dinamici

http://www.example.com/*

ho cercato

User-agent: * 
Allow:/
Disallow: /*/

ma il webmaster di Google strumento di test dice che tutte le sottodirectory sono permesse.

Qualcuno ha una soluzione per questo? Grazie :)

fonte

2011-08-29 cotopaxi

Provare a rimuovere la riga 'Allow' o metterla dopo il' Disallow'. I crawler dovrebbero fermarsi alla prima partita. –

Brian ha ragione, le prime regole di corrispondenza, ma attenzione che non si può autorizzare tutto in questo modo, la "vista rapida" di Google non sarà in grado di caricare alcuna immagine o script, quindi la visualizzazione potrebbe essere alterata. Quindi forse avresti bisogno di creare almeno una singola cartella pubblica per avere la tua homepage ben visualizzata su "quick view". –

-2

User-agent: * 
Allow: index.html (or /index.php) 
Disallow:/

dovrebbe fare la magia.

fonte

2012-12-06 16:41:21 Augusto

index.html (o .php) non è il percorso root "/" –

Secondo le definizioni di analisi Backus-Naur Form (BNF) in Google's robots.txt documentation, l'ordine delle direttive Allow e Disallow non importa. Quindi cambiare l'ordine in realtà non ti aiuterà.

Invece dovresti usare l'operatore $ per indicare la chiusura del tuo percorso.

Verificare questo file robots.txt. Sono certo che dovrebbe funzionare per voi (ho anche verificato in GWT):

user-agent: * 
Allow: /$ 
Disallow:/

Questo permetterà http://www.example.com e http://www.example.com/ venga eseguita la scansione, ma tutto il resto bloccato.

nota: che la direttiva Allow soddisfa il vostro particolare caso d'uso, ma se avete index.html o default.php, questi URL non verranno sottoposti a scansione.

nota a margine: Conosco solo i comportamenti di Googlebot e bingbot. Se ci sono altri motori a cui mirate, potrebbero o meno avere regole specifiche su come sono elencate le direttive. Quindi, se si vuole essere "extra" sicuri, è sempre possibile scambiare le posizioni dei blocchi di direttiva Allow e Disallow, li ho solo impostati in questo modo per sfatare alcuni dei commenti.

fonte

2014-02-15 07:12:04 eywu

È possibile eseguire la scansione solo della pagina principale? O anche http://www.example.com/electr/pr.html è OK? – gmlvsv

Quando si guardano le specifiche robots.txt di Google, si può vedere che:

Google, Bing, Yahoo e Ask sostenere una forma limitata di "jolly" per i valori di percorso.Questi sono:

* indica 0 o più istanze di qualsiasi carattere valido
$ indica la fine dell'URL

vedere https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=en#example-path-matches

Poi, come eywu detto , la soluzione è

user-agent: * 
Allow: /$ 
Disallow:/

fonte

2016-03-15 18:44:54 charlesdg

robots.txt consentire solo root, non consentire tutto il resto?

risposta

Problemi correlati