2010-10-29 15 views

risposta

28

È necessario un semplice file robots.txt. Fondamentalmente, è un file di testo che indica ai motori di ricerca di non indicizzare determinate pagine.
Non è necessario includerlo nell'intestazione della pagina; Finché si trova nella directory principale del tuo sito web, verrà raccolto dai crawler.
Creare nella cartella principale del tuo sito web e mettere il seguente testo in:

User-Agent: * 
Disallow: /imprint-page.htm 

Si noti che si dovrebbe sostituire imprint-page.html nell'esempio con il nome effettivo della pagina (o la directory) che si desidera per non essere indicizzato.

Questo è tutto! Se vuoi essere più avanzato, puoi dare un'occhiata a here, here o here per molte più informazioni. Inoltre, puoi trovare strumenti gratuiti online che generano un file robots.txt per te (ad esempio, here).

+0

Ecco un buon tutorial: http://www.javascriptkit.com/howto/robots.shtml –

+0

Grazie Sam! Aggiunto il tuo link accanto all'altro tutorial. – Donut

+0

Grazie mille! Devo includere robots.txt da qualche parte nell'intestazione? O basta semplicemente rilasciarlo nella radice del sito? –

5

È possibile impostare un file robots.txt per provare a dire ai motori di ricerca di ignorare determinate directory.

See here for more info.

In sostanza:

User-agent: * 
Disallow: /[directory or file here] 
25

Inoltre è possibile aggiungere seguente meta tag nella testa di quella pagina

<meta name="robots" content="noindex,nofollow" /> 
+0

buona idea. Ha fatto anche questo. –

+6

Questa è una soluzione migliore rispetto all'utilizzo di robots.txt. Il motivo è che, se esegui il root di una pagina di robot, i motori di ricerca non visitano nemmeno la pagina. Se ci sono collegamenti che puntano alla pagina, non la rimuoveranno dall'indice perché non glielo hai detto. Google mostrerà la pagina senza una descrizione, perché conosce la pagina ma non sa cosa c'è nella pagina. L'unico modo per rimuoverlo esplicitamente dall'indice è dire ai motori che non vuoi che vengano visualizzati con il comando 'noindex'. – eywu

+1

Questo è un po 'un problema (troppo tempo per la codifica) se la testa è inclusa dinamicamente come linguaggio lato server come php, che sarà lo stesso per tutte le pagine. –

3

Al giorno d'oggi, il metodo migliore è quello di utilizzare un robots meta tag e impostarlo noindex,follow:

<meta name="robots" content="noindex, follow"> 
2
<meta name="robots" content="noindex, nofollow"> 

sufficiente includere questa linea nel vostro <html> Tag <head>. Perché te lo dico perché se usi il file robots.txt per nascondere i tuoi URL che potrebbero essere pagine di accesso o altri URL protetti che non mostrerai a qualcun altro o ai motori di ricerca.

Quello che posso fare è semplicemente accedere al file robots.txt direttamente dal tuo sito Web e vedere quali URL sono segreti. Allora qual è la logica dietro questo file robots.txt?

Il buon modo è includere il meta tag dall'alto e proteggersi da chiunque.

Problemi correlati