2013-04-05 14 views
51

Io uso Github per memorizzare il testo di uno dei miei siti Web, ma il problema è che Google indicizza anche il testo in Github. Quindi lo stesso testo apparirà sia sul mio sito che su Github. per esempio. this search Il colpo migliore è il mio sito. Il secondo colpo è il repository Github.Come fermare Google indicizzare il mio repository Github

Non mi importa se le persone vedono le fonti ma non voglio che Google indicizzi (e magari penalizzino per contenuti duplicati.) Esiste un modo, oltre a prendere il repository privato, per dire a Google di fermare l'indicizzazione vero?

Cosa succede nel caso di Github Pages? Quelli sono siti in cui la fonte si trova in un repository Github. Hanno lo stesso problema di duplicazione?

Prendere il punto più colpito in assoluto a the Marpa site ma non vedo lo source elencato nei risultati della ricerca. Come?

+7

Guardando il robots.txt di Github, vedo le macchie nel ramo maestro sono ammessi, ma tutti gli altri rami sono disabilitate . Questa è probabilmente la spiegazione del fatto che il contenuto di Marpa non viene indicizzato. Quindi forse se uso un ramo diverso e rimuovo il ramo principale dal repository, l'indicizzazione si fermerà. – szabgab

+0

[direttive robots.txt riepilogate] [1] [1] (http://antezeta.com/news/avoid-search-engine-indexing) –

risposta

65

Il https://github.com/robots.txt file GitHub permette l'indicizzazione delle macchie nel ramo 'master', ma limita tutti gli altri rami. Pertanto, se non si dispone di un ramo "principale", Google non deve indicizzare le proprie pagine.

Come rimuovere il 'master' ramo:

Nel vostro clone di creare un nuovo ramo - chiamiamolo 'main' e spingerlo a GitHub

git checkout -b main 
git push -u origin main 

su GitHub cambiare il ramo di default (vedere nella sezione Impostazioni del repository) o qui https://github.com/blog/421-pick-your-default-branch

Quindi estrarre il branch master dal clone e da GitHub:

git branch -d master 
git push origin :master 

ottenere altre persone che potrebbero avere già biforcute repository di fare lo stesso.

In alternativa, se si desidera sostenere finanziariamente GitHub, si può andare privato https://help.github.com/articles/making-a-public-repository-private

+2

Grazie. Ho seguito i passaggi ma l'ho realizzato direttamente da github.com – Gabriel

+1

Interessante. Ho eliminato il ramo principale per i miei repository di siti Web Github per ragioni igieniche, non rendendomi conto che avrebbe avuto questo bell'effetto collaterale. –

+0

Come mantieni il rendering delle pagine github correttamente se non c'è un ramo principale? – Bevan

-5

awnser corto. Sì, è possibile con robots.txt.

Se si desidera impedire a Googlebot di eseguire la scansione del contenuto sul proprio sito, sono disponibili numerose opzioni, tra cui l'utilizzo di robots.txt per bloccare l'accesso a file e directory sul server.

È necessario un file robots.txt solo se il sito include contenuti che non si desidera che i motori di ricerca indicizzino. Se vuoi che i motori di ricerca indicizzino tutto nel tuo sito, non hai bisogno di un file robots.txt (nemmeno di uno vuoto).

Anche se Google non esegue la scansione o l'indicizzazione del contenuto delle pagine bloccate da robots.txt, possiamo ancora indicizzare gli URL se li troviamo su altre pagine sul Web. Di conseguenza, l'URL della pagina e, potenzialmente, altre informazioni disponibili pubblicamente come il testo di ancoraggio nei collegamenti al sito o il titolo del progetto Open Directory (www.dmoz.org), possono essere visualizzati nei risultati di ricerca di Google.

Fonti:

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=93708 http://support.google.com/webmasters/bin/answer.py?hl=en&answer=156449

+9

Il file robots.txt deve trovarsi nella radice del Web sito e non ho accesso in scrittura a http://github.com/robots.txt Crawling può essere limitato nell'intestazione HTML pure, ma io non credo di poter modificare le pagine generate da Github per il mio codice sorgente . – szabgab

+0

Nel caso in cui qualcuno cerca di non consentire i robot sul loro costruito Pagine GitHub: Le persone che utilizzano Pagine GitHub può aggiungere un file robots.txt per il loro repository utente Page e usarlo per controllare i robot su tutte le pagine sono state costruite (username.github.io/*). Tuttavia, non possono nascondere la fonte per la loro Pagina Utente come deve essere in '' 'master'''. Per i repository di progetti, '' 'master''' può essere cancellato e un altro ramo può essere usato per GitHub Pages. Nulla di ciò si applica a OP come szabgab dice che non usa Github Pages. – olavimmanuel

0

Se voler aderire al ramo principale non sembra esserci alcun modo per aggirare utilizzando un pronti contro termine privata (e upselling tuo account GitHub) o utilizzando un altro servizio che offre il servizio repository gratis come Bitbucket.

+0

ho già (circa un'ora fa) rimosso il ramo 'master' e ora ho un ramo 'main', ma mi chiedo, basta questo? – szabgab

+1

Come dimostra GitHubs robots.txt, dovrebbe essere sufficiente. https://github.com/robots.txt – iltempo

Problemi correlati