Come impedire ai motori di ricerca di indicizzare una singola pagina del mio sito web?

Non voglio che i motori di ricerca indicizzino la mia pagina di stampa. Come potrei farlo?Come impedire ai motori di ricerca di indicizzare una singola pagina del mio sito web?

fonte

2010-10-29 Proud Member

https: // css-trucchi.it/snippets/html/meta-tag-to-prevent-search-engine-bots/ – zloctb

È necessario un semplice file robots.txt. Fondamentalmente, è un file di testo che indica ai motori di ricerca di non indicizzare determinate pagine.
Non è necessario includerlo nell'intestazione della pagina; Finché si trova nella directory principale del tuo sito web, verrà raccolto dai crawler.
Creare nella cartella principale del tuo sito web e mettere il seguente testo in:

User-Agent: * 
Disallow: /imprint-page.htm

Si noti che si dovrebbe sostituire imprint-page.html nell'esempio con il nome effettivo della pagina (o la directory) che si desidera per non essere indicizzato.

Questo è tutto! Se vuoi essere più avanzato, puoi dare un'occhiata a here, here o here per molte più informazioni. Inoltre, puoi trovare strumenti gratuiti online che generano un file robots.txt per te (ad esempio, here).

fonte

2010-10-29 19:42:27 Donut

Ecco un buon tutorial: http://www.javascriptkit.com/howto/robots.shtml –

Grazie Sam! Aggiunto il tuo link accanto all'altro tutorial. – Donut

Grazie mille! Devo includere robots.txt da qualche parte nell'intestazione? O basta semplicemente rilasciarlo nella radice del sito? –

È possibile impostare un file robots.txt per provare a dire ai motori di ricerca di ignorare determinate directory.

See here for more info.

In sostanza:

User-agent: * 
Disallow: /[directory or file here]

fonte

2010-10-29 19:45:13

Inoltre è possibile aggiungere seguente meta tag nella testa di quella pagina

<meta name="robots" content="noindex,nofollow" />

fonte

2010-10-29 19:55:15 seriyPS

buona idea. Ha fatto anche questo. –

Questa è una soluzione migliore rispetto all'utilizzo di robots.txt. Il motivo è che, se esegui il root di una pagina di robot, i motori di ricerca non visitano nemmeno la pagina. Se ci sono collegamenti che puntano alla pagina, non la rimuoveranno dall'indice perché non glielo hai detto. Google mostrerà la pagina senza una descrizione, perché conosce la pagina ma non sa cosa c'è nella pagina. L'unico modo per rimuoverlo esplicitamente dall'indice è dire ai motori che non vuoi che vengano visualizzati con il comando 'noindex'. – eywu

Questo è un po 'un problema (troppo tempo per la codifica) se la testa è inclusa dinamicamente come linguaggio lato server come php, che sarà lo stesso per tutte le pagine. –

Creare un file robots.txt e impostare i controlli lì.

Ecco la documentazione per Google: http://code.google.com/web/controlcrawlindex/docs/robots_txt.html

fonte

2011-12-08 16:57:48 Sologoub

Al giorno d'oggi, il metodo migliore è quello di utilizzare un robots meta tag e impostarlo noindex,follow:

<meta name="robots" content="noindex, follow">

fonte

2014-08-12 18:45:15 JVerstry

<meta name="robots" content="noindex, nofollow">

sufficiente includere questa linea nel vostro <html> Tag <head>. Perché te lo dico perché se usi il file robots.txt per nascondere i tuoi URL che potrebbero essere pagine di accesso o altri URL protetti che non mostrerai a qualcun altro o ai motori di ricerca.

Quello che posso fare è semplicemente accedere al file robots.txt direttamente dal tuo sito Web e vedere quali URL sono segreti. Allora qual è la logica dietro questo file robots.txt?

Il buon modo è includere il meta tag dall'alto e proteggersi da chiunque.

fonte

2016-11-10 06:36:30

Un robot desidera visitare un URL del sito Web, ad esempio http://www.example.com/welcome.html. Prima lo fa, è primati controlli per http://www.example.com/robots.txt, e trova: si può esplicitamente impedire:

User-agent: * 
Disallow: /~joe/junk.html

si prega di visitare il collegamento sotto per i dettagli robots.txt

fonte

2017-01-30 10:57:12

Come impedire ai motori di ricerca di indicizzare una singola pagina del mio sito web?

risposta

Problemi correlati