2011-11-03 13 views
8

In questi giorni mi imbatto in diversi risultati di ricerca di Google che contengono siti con collegamenti che corrispondono esattamente alle mie parole di ricerca. Come è possibile che i siti cambino dinamicamente i loro contenuti o piuttosto come stanno ingannando Google per indicizzare la loro pagina per la mia parola chiave. Ho letto di content farms ma non sembra una risposta giusta. Qualcuno può farmi sapere come si chiama questa tecnica? Proverò a capirne di più.Come alcuni siti con link falsi vengono visualizzati nei risultati del motore di ricerca

risposta

8

La mia comprensione è che l'unico modo per ottenere su Google o qualsiasi altro motore di indicizzazione è quello di fare in modo che il robot esegua la scansione del sito e generi risultati. Ovviamente, Google può eseguire la scansione di siti dinamici:

tuttavia trovo che questo sia un cambiamento evolutivo piuttosto che rivoluzionario, per quanto riguarda la tua domanda.

Quello che penso sta succedendo dietro le quinte è la combinazione di queste cose:

  • indice Content
  • indice preparati
  • presentato utente contenuti
  • referrer aggiornamenti di ricerca

Cercherò di spiegare ognuno di questi su un sito fittizio che vende musica: hai un sacco di esempi per compa re l'esperienza. Ovviamente sarà sul dominio example.com.

indice Content

Ovviamente, come un sito che vuole offrire qualcosa, in realtà hanno qualche contenuto. Di solito, raggruppate questi contenuti in qualche modo. Supponiamo che il nostro sito di musica possibile i contenuti del gruppo da diverse categorie:

  • Autore
  • genere musicale
  • inseriti dall'utente
  • classificazione dei contenuti

Ognuno di questi può essere rappresentato in modo astratto come un tag . Ad esempio, il nostro sito potrebbe scegliere di avere example.com/tags/eagles per rappresentare Eagles o example.com/tags/rock per rappresentare tutte le band rock. Google sarebbe in grado di indicizzarli, quindi qualsiasi potenziale ricerca potrebbe fornire un link al nostro sito.

indice Preparata

indice preparati è simile, ma è un indice generico invece del contenuto reale. Questo può essere preparato in vari modi, come ad esempio:

  • Prendete un dizionario e aggiungere tutte le parole
  • Crawl qualche milione di pagine dal Web (eventualmente utilizzando link forniti dai motori di ricerca!) E ottenere le frasi spesso ripetute da lì
  • contenuti Grab dal forum gratuiti
  • Usa Wikipeda
  • Get testo dai libri disponibili gratuitamente, come quelli da Project Gutenberg

Il nostro sito sarebbe, ad esempio, ottenere qualsiasi parola da testi che sono collegati alla musica in qualsiasi modo e creare tag simili a quelli precedenti. Per esempio. semplicemente eseguendo la scansione della pagina Rock music su Wikipedia, è possibile ottenere molti tag.

contenuti inviati dall'utente

Questo è qualcosa che viene di solito dopo che il sito è attivo e funzionante. Diciamo che mettiamo una casella di ricerca sul nostro sito e poi gli utenti arrivano e digitano "musica rock". Doh, lo sapevamo già, quindi niente di buono da quella ricerca. Tuttavia, diciamo che passiamo attraverso i nostri registri del server Web e vediamo alcune ricerche per langeleik. Ora, sarebbe qualcosa che potremmo non aver indicizzato prima. Fantastico, ho appena generato un altro tag sul nostro sito.

Ovviamente Google non lo sa, quindi creiamo una voce nel nostro sitemap ed è lì dopo un'altra scansione di Googlebot. Quando un utente cerca su Google "langeleik", uno dei link potrebbe essere un link a example.com/tags/langeleik.

Ci sono altre e forse molto più preziose forme di input dell'utente - commenti, post sul forum, ecc. Da qui la ragione per cui esistono molti forum generici che non hanno altro scopo se non l'hosting di forum. È un'ottima fonte di dati e ricevi nuovi contenuti gratuitamente.

Alla fine, tutto questo dovrebbe andare alla sitemap del tuo sito. Si può avere enormi Sitemap, vedere questo:

Referenti

L'ultima cosa è rinvii. Di nuovo, dopo che il tuo sito è attivo e funzionante, alcune ricerche di Google verranno direttamente a te. Questo è quando si può sfruttare l'intestazione di HTTP (sì, è un errore di ortografia - controllare sul Wikipedia), vedere questo:

Si noti che la ricerca di Google è al tempo stesso:

  • incompleta
  • Fuzzy

Quindi, puoi cercare "langeleik" sopra, ma alcuni link hanno il titolo di ad es. "Langeleik e Harpe". Niente di insolito, ma nota anche il contrario: se cerchi "langeleik e harpe", non troverà solo tutte le pagine con entrambi i termini, ma anche le pagine con l'una o l'altra. Se il nostro lo sappiamo per harpe, ma non per langeleik, e qualcuno cerca "langeleik e harpe", passeremo attraverso l'intestazione HTTP Referer un parametro q come q=langeleik+harpe. Fantastico - ho appena aggiunto un'altra parola alla nostra sitemap, se vogliamo.

Per quanto riguarda la sfocatura, si noti che quando si cerca "aquile", è possibile ottenere di tutto, dagli uccelli attraverso le squadre NFL a una rock band. Quindi, anche se siamo un sito di musica, potremmo espandere il nostro orizzonte (se lo si desidera) alle ultime notizie NFL - qualcosa di totalmente non correlato e molto utile per alcuni siti.

Conclusione - è un'illusione

considero la combinazione di tutti questi una fonte molto ricca edificio mappa del sito. Puoi facilmente generare milioni di tag unici usando le tecniche di cui sopra. Pertanto, "qualsiasi cosa" digiti si troverà su example.com/tags.

Tuttavia, si deve notare che questo è solo un illusione. Ad esempio, se cerchi "ertfghedctgb" (facilmente digitato sulla normale tastiera QWERTY - ert + fgh + edc + tgb), molto probabilmente non otterrai nulla da Google (al momento non lo faccio). Non era abbastanza comune per nessuno inserirla nelle loro sitemap (o non abbastanza comune per i motori di ricerca per indicizzarla).

+4

aggiungendo ertfghedctgb a questa risposta che la parola diventerà un risultato su Google entro poche ore – SinistraD

+1

@SinistraD :) buona osservazione! –

+1

Ora è un risultato di ricerca :) – nathanjosiah

1

Tutti i browser e i crawler inviano qualcosa chiamato stringa HTTP_USER_AGENT al server Web ad ogni richiesta, a meno che non venga aggiunta appositamente dal software. Questa stringa identifica il browser utilizzato, la versione, il motore di rendering e altri dettagli. (Vedi http://en.wikipedia.org/wiki/User_agent)

Il server Web può leggere HTTP_USER_AGENT e modificare il contenuto servito. Ad esempio, viene utilizzato come parte del rilevamento sia che si tratti di un dispositivo palmare o di uno schermo di grandi dimensioni, nei casi in cui si desideri un layout diverso della pagina Web fornita.

Le persone investono molto denaro nel traffico verso i loro siti, soprattutto attraverso i grandi motori di ricerca come Google e Bing. Il termine SEO, che sta per Search Engine Optimization, è una tecnica in cui il proprietario della pagina web ottimizza il suo contenuto per rendere più facile per i motori di ricerca ottenere risultati rilevanti. Se hai un sito complesso che utilizza molto JavaScript e Ajax, potresti voler pubblicare una pagina statica sui motori di ricerca per consentire loro di leggere il tuo contenuto.

I siti dannosi a volte servono contenuto ottimizzato per auto, ottimizzato per i motori di ricerca per posizionarsi in alto nelle ricerche, ma offrono agli utenti umani una semplice pagina con gli annunci invece di generare entrate.

Questa risposta viene fornita in alternativa a una risposta in cui il normale contenuto dinamico, come già descritto da icyrock-com, è la causa di ottenere un'altra pagina rispetto a quanto indicato da Google.

Problemi correlati