2009-07-20 9 views
11

So che l'algoritmo di ricerca di Google si basa principalmente sul pagerank. Tuttavia, fa anche analisi e utilizza la struttura del documento H1, H2, title e altri tag HTML per migliorare i risultati della ricerca.In che modo Google utilizza i tag HTML per migliorare il motore di ricerca?

Qual è il nome di questa tecnica "utilizzando la struttura del documento per migliorare i risultati della ricerca"?

E ci sono documenti accademici per aiutarmi a studiare quest'area?

Il fatto che Google tenga conto della struttura HTML è ben trattato negli articoli SEO, ma non è stato possibile trovarlo nei documenti accademici.

+0

Credo che fondamentalmente analizza la pagina HTML per leggere il contenuto. In Perl- http://search.cpan.org/dist/HTML-Parser/ –

risposta

17

mi pare si chiami "Semantic Markup"

[...] markup semantico è markup che è abbastanza descrittivo per permettere a noi e le macchine che programma per riconoscere e prendere decisioni su di esso. In altre parole, markup significa qualcosa quando possiamo identificarlo e fare cose utili con esso. In questo modo, la marcatura semantica diventa più che meramente descrittiva. Diventa un meccanismo brillante che consente a uomini e macchine di "capire" le stesse informazioni. http://www.digital-web.com/articles/writing_semantic_markup/

Un articolo più pratico qui http://robertnyman.com/2007/10/29/explaining-semantic-mark-up/

+3

Non riesco a vedere la rilevanza del markup semantico alla domanda dell'OP a meno che tu non possa anche mostrare questo ha una certa rilevanza per i motori di ricerca. – cletus

+2

@cletus: l'utilizzo della marcatura semantica, ad esempio <h1> per l'intestazione principale, consente a un motore di ricerca di avere maggiore certezza sulla struttura della pagina, che influisce sul suo posizionamento di quella pagina per i termini di ricerca pertinenti. Sebbene i motori di ricerca siano bravi nell'usare l'euristica per indovinare la struttura delle pagine che non usano il markup semantico, prendono sicuramente nota del markup semantico quando lo trovano. La Guida SEO Starter di Google http://googlewebmastercentral.blogspot.com/2008/11/googles-seo-starter-guide.html include una sezione intitolata "Usa tag di intestazione in modo appropriato". – NickFitz

12

SEO è diventato quasi una religione per alcune persone in cui sono ossessionati dalle minuzie. Francamente, non sono convinto che tutto questo sforzo sia giustificato.

Il mio consiglio? Ignora cosa dicono i cosiddetti esperti e segui semplicemente Google's guidelines.

Si potrebbe essere alla ricerca di una risposta accademica, ma onestamente, questa non è una domanda accademica oltre le basi di come funziona l'indicizzazione Web. La realtà di un moderno algoritmo di indicizzazione e classificazione delle pagine è molto più complessa.

Si consiglia di guardare uno dei precedenti works on search engines. Nota i nomi degli autori. Si consiglia inoltre di leggere Google Patent application 20050071741.

Questi principi generali a parte, Google's search algorithm is constantly tweaked in base ai risultati effettivi e desiderati. I funzionamenti esatti sono un segreto strettamente custodito solo per rendere più difficile per le persone giocare al sistema. Gran parte dei "consigli" o descrizioni su come funziona l'algoritmo di ricerca di Google è pura supposizione.

Quindi, oltre ad avere un titolo e un codice HTML valido e ben formato, non penso che troverai quello che stai cercando.

+1

OP sta cercando specificamente il lavoro accademico sull'argomento, non necessariamente solo come ottenere un PageRank migliore. –

+2

-1: Mentre sono d'accordo con l'opinione, questa risposta non affronta la domanda dell'OP. – Joel

+1

Grazie per il vostro consiglio ma sto cercando specificamente il lavoro accademico sull'argomento come quello che ha detto Chris, grazie per il vostro contributo e grazie a Chris per aver spiegato la mia domanda in modo migliore – ahmed

1

Come ha detto il cletus seguire le linee guida di google.

Ho fatto alcuni test per giungere alla conclusione che il titolo, l'immagine alt e il tag h sono i più importanti. Vale la pena menzionare anche Google AdSense. Ho avuto la sensazione che se li implementassi, il grado del tuo sito aumentasse.

+1

Come quello che ha detto Chris "Sto cercando specificamente il lavoro accademico sull'argomento, non necessariamente solo come ottenere il miglior Page Rank" Grazie per i tuoi consigli – ahmed

1

credo che quello che interessa è chiamata strutturale-impronte digitali, ed è spesso usato per determinare la somiglianza delle due strutture. Nel caso di Google, applicare un peso a tag diversi e applicarlo a un algoritmo segreto che (probabilmente) utilizza le frequenze dei diversi elementi nell'impronta digitale.Questo è profondamente instradato nella teoria dell'informazione - se siete alla ricerca di pubblicazioni accademiche sulla teoria dell'informazione, vorrei iniziare con "A Mathematical Theory of Communication" da Claude Shannon

4

Google in modo molto deliberato non fornisce troppe informazioni sul suo algoritmo di ricerca, quindi è improbabile che troverete una risposta definitiva o un documento accademico che lo confermi. Se sei interessato da un punto di vista SEO, scrivi le tue pagine in modo che siano utili agli umani e anche ai robot piaceranno.

Per effettuare una buona pagina per gli esseri umani, è necessario utilizzare tag come H1, H2 e così via per creare una pagina esborso gerarchica ... un po 'come questo ...

h1 "Contattaci" ... h2 "Dettagli di contatto" ...... h3 "Numeri di telefono" ...... h3 "Indirizzi di posta elettronica" ... h2 "Come trovarci" ...... h3 "By Car" ...... h3 "In treno"

La difficoltà con la tua domanda è che se metti qualcosa nel tuo tag h1 sperando che aumenti la tua posizione in Google, ma non lo ha fatto t ma Fino ad altri contenuti sulla tua pagina, potresti sembrare che stai inviando spam. Allo stesso modo, se la tua pagina è composta da troppe intestazioni e non abbastanza contenuti effettivi, potresti sembrare che stai inviando spam. Non è semplice come aggiungere un tag h1 e h2 e salirai! Ecco perché è necessario scrivere siti Web per gli umani, non per i robot.

+0

l'idea è brillante, +1 per l'unica risposta corretta, come si dice, "sviluppato per gli esseri umani non robot" –

2

Si può anche provare a cercare la sezione 'Informatica' di arXiv: http://arxiv.org per "ricerca motore "e i vari termini suggeriti da altri.

Contiene molti articoli accademici, tutti disponibili gratuitamente ... si spera che alcuni di essi siano rilevanti per la tua ricerca. (. Naturalmente l'avvertenza di convalidare applica il tenore di ogni carta)

0

ho trovato interessante il fatto che - senza meta keywords né descrizione fornita - in uno scenatio come questo:

<p>Some introduction</p> 
<h1>headline 1</h1> 
<p>text for section one</p> 

sempre il "testo per la sezione uno "è mostrato nella pagina dei risultati di ricerca.

1

In breve; molto attentamente.Nel lungo:

Citazione di anatomy of a large-scale hypertextual erb search engine:

[...] Questo ci dà un po 'limitata ricerca di frasi finché ci sono non che molti tasselli per un particolare parola. Prevediamo di aggiornare il modo in cui gli attacchi di ancoraggio vengono memorizzati per consentire una maggiore risoluzione nella posizione e i campi docIDhash . Usiamo la dimensione del testo rispetto al resto del documento perché durante la ricerca, non si vuole classificare altrimenti identici documenti in modo diverso solo perché uno dei documenti è in un carattere più grande . [...]

E prosegue:

[...] Un'altra grande differenza tra web e collezioni tradizionali ben controllati è che ci c'è praticamente alcun controllo su ciò che persone possono mettere sul web. Coppia con l'enorme influenza dei motori di ricerca per indirizzare il traffico e le aziende che deliberatamente manipolando i motori di ricerca per profitto diventano un problema serio . Questo problema che non è stato risolto con nei tradizionali sistemi di recupero informazioni chiusi. Inoltre, è interessante notare che gli sforzi metadati hanno in gran parte fallito con i motori di ricerca web, perché qualsiasi testo sulla pagina che non è direttamente rappresentato per l'utente è abusato per manipolare i motori di ricerca. [...]

I Challenges in a web search engine affronta questi problemi in maniera più moderna:

[...] pagine Web in autunno HTML nel bel mezzo di questo continuum di struttura nei documenti, non è né vicino al testo libero né a dati ben strutturati. Invece il markup HTML fornisce informazioni strutturali limitate, tipicamente utilizzate per controllare il layout ma fornendo indicazioni sulle informazioni semantiche. Le informazioni di layout in HTML possono sembrare di utilità limitata, soprattutto rispetto alle informazioni contenute in linguaggi come XML che possono essere utilizzati per taggare il contenuto, ma in realtà è una fonte particolarmente preziosa di metadati nei corpora inaffidabili . Il valore di informazioni di layout deriva dal fatto che è visibile all'utente [...]:

E aggiunge:

[...] tag HTML possono essere analizzati per quello informazioni semantiche possono essere dedotte. Oltre ai tag di intestazione sopra menzionati, esistono tag che controllano la faccia del font (grassetto, corsivo), la dimensione e il colore. Questi possono essere analizzati per determinare quali parole nel documento pensano che l'autore sia particolarmente importante.Uno dei vantaggi dell'HTML o di qualsiasi linguaggio di markup che mappa molto da vicino il modo in cui viene visualizzato il contenuto è che ci sono meno opportunità di abuso: è difficile usare il markup HTML in modo da incoraggiare i motori di ricerca a pensare che il testo selezionato sia importante , mentre agli utenti sembra poco importante. Ad esempio, il significato fisso del tag indica che qualsiasi testo in un contesto HI apparirà in primo piano nella pagina Web renderizzata, quindi è sicuro che i motori di ricerca valutino questo testo in modo ottimale. Tuttavia, l'affidabilità del markup HTML viene ridotta da Cascading Style Sheets che separano i nomi dei tag dalla loro rappresentazione. C'è stata una ricerca nell'estrarre informazioni da quale struttura HTML possiede. Per esempio, [Chakrabarti etal, 2001; Chakrabarti, 2001] ha creato un albero DOM di una pagina HTML e ha usato queste informazioni per aumentare la precisione della distillazione di argomento, una tecnica di analisi basata su collegamenti.

Ci sono un numero di problemi che un motore di ricerca moderno deve combattere, ad esempio lo spam Web e gli schemi SEO blackhat.

Ma anche in un mondo perfetto, per esempio dopo aver eliminato le mele cattive dall'indice, il web è ancora un casino totale perché nessuno ha strutture identiche. Ci sono mappe, giochi, video, foto (flickr) e tantissimi contenuti generati dagli utenti. In altre parole, il web è ancora molto imprevedibile.

Risorse

1

Per mantenerlo dolorosamente semplice. Rendi logica l'architettura delle tue informazioni. Se gli elementi più importanti per la comprensione dell'utente sono evidenziati con intestazioni e raggruppati in modo logico, allora il documento è più facile da interpretare utilizzando algoritmi di elaborazione delle informazioni. Magicamente, sarà anche più facile per gli utenti interpretare. Ricorda che gli algoritmi dei motori di ricerca sono stati scritti da persone che cercavano di interpretare il linguaggio.

il processo di base è: Scrivi ben strutturati HTM L - utilizzando i tag di intestazione per indicare gli elementi più critici sulla pagina. Utilizzare tag logici in base alla struttura delle informazioni. Elenchi per elenchi, intestazioni per argomenti principali.

Fornitura alt alt e nomi per qualsiasi elemento visivo, quindi utilizzare semplice css per disporre questi elementi.

Se il sito funziona bene per gli utenti e contiene informazioni pertinenti, non si rischia di diventare uno spammer elencato in nero e gli algoritmi dei motori di ricerca favoriranno la tua pagina.

Mi è piaciuto molto il libro Transcending CSS per una spiegazione chiara di HTML correttamente strutturato.

0

Nuovo tag da utilizzare chiamato CANONICA può ora essere utilizzato anche, da parte di Google, fare clic su HERE

Problemi correlati