Come ha detto Paolo un molti interpreti di robots.txt non sono troppo luminosi e potrebbero non interpretare le wild card nel percorso in cui intendete usarli.
Detto questo, alcuni crawler tentano di ignorare le pagine dinamiche da soli, preoccupandosi che possano rimanere intrappolati in loop infiniti su collegamenti con URL diversi. Presumo che tu stia facendo questa domanda perché affronta un coraggioso crawler che sta cercando di accedere a quei percorsi dinamici.
In caso di problemi con crawler specifici, è possibile provare a indagare in modo specifico su come funziona il crawler eseguendo una ricerca nella sua capacità robots.txt e specificando una specifica sezione robots.txt per esso.
Se in genere si desidera solo disabilitare tale accesso alle proprie pagine dinamiche, è consigliabile rivedere il proprio design robots.txt.
Nella maggior parte dei casi, le "pagine" di gestione dei parametri dinamici si trovano in una directory specifica o in un set specifico di directory. Questo è il motivo per cui è normalmente molto semplice semplicemente Disabilitare:/cgi-bin o/app ed essere fatto con esso.
Nel tuo caso sembra che tu abbia mappato la radice a un'area che gestisce i parametri. Si potrebbe voler invertire la logica di robots.txt e dire qualcosa del tipo:
User-agent: *
Allow: /index.html
Allow: /offices
Allow: /static
Disallow:/
In questo modo la vostra lista Consenti avrà la precedenza l'elenco Disallow aggiungendo in particolare quello che i crawler dovrebbe indice. Nota che non tutti i crawler sono creati uguali e potresti voler perfezionare quel file robots.txt in un secondo momento aggiungendo una sezione specifica per qualsiasi crawler che ancora si comporta male.
fonte
2009-09-29 23:17:24
Secondo [this] (http://smackdown.blogsblogsblogs.com/2008/05/23/googlebot-creates-pages-instead-of-simply-indexing-them-new-form-crawling-algo-goes -bad /), non consentire una buona ricerca delle pagine di ricerca. Quindi questa domanda è molto pertinente e non dovrebbe essere chiusa. –