Alexa ottiene sicuramente le informazioni sul traffico dagli utenti della barra degli strumenti. Poiché si tratta di un gruppo di persone relativamente piccolo e autoselezionato, ciò porta inevitabilmente a un campione parziale (ecco perché il traffico di Alexa non corrisponde al traffico misurato sui siti che gestisco). Anche con le migliori tecniche statistiche per ridurre i bias, non è mai possibile eliminarlo completamente quando la distribuzione campionaria non è uniforme.
Non chiaro come Google lo fa, anche se potrebbe comportare il tracciamento dei cookie.
Un progetto su cui ho lavorato di recente ha a che fare con questa domanda.
Un altro modo per farlo (che ha anche bias, ma diversi) sarebbe quello di utilizzare un servizio di localizzazione IP per trovare la latitudine e la longitudine approssimativa di ogni visitatore del sito. Quindi utilizzare il mio progetto (Full Disclosure: ho eseguito quel sito ed è commerciale):
http://askgeo.com
Per ottenere informazioni demografiche per quella posizione. AskGeo fornisce effettivamente informazioni demografiche su diversi livelli geografici (stato, contea, suddivisione della contea, città, codice di avviamento postale, sezione censuaria (poche migliaia di persone) e gruppo di blocco del censimento (circa un migliaio di persone). livello più basso (ad esempio, gruppo blocco censimento) per una data latitudine e longitudine
Il sito restituisce un numero enorme di variabili demografiche.L'idea sarebbe di utilizzare i conteggi soft dalle variabili demografiche fornite a livello di gruppo di blocchi. fai un esempio, se stai cercando di tracciare la distribuzione per età dei tuoi utenti, allora useresti gli intervalli di età forniti nella risposta AskGeo e per un dato campione, dovresti aggiungere un conteggio parziale frazionario a ogni intervallo che corrisponde a la percentuale della popolazione in quel gruppo di blocchi dalla fascia di età corrispondente. Ad esempio, prendi il mio quartiere a San Francisco grazie distribuzione per età:
- CensusAgePercent0To4: 7,3%
- CensusAgePercent5To9: 3,5%
- CensusAgePercent10To: 3,2%
... (saltando un po ', come probabilmente si ottiene l'idea). ..
- CensusAgePercentOver85: 1,5%
Se hai un indirizzo IP che hai tracciato a quel gruppo di blocchi di censimento, devi aggiungere ciascuna di queste percentuali (come frazione da 0 a 1) ai tuoi contatori (soft) per quelle fasce di età. (Un contatore soft è solo un contatore che consente di contare non interi.)
Si potrebbe fare lo stesso con la razza, sesso, livello di reddito, i valori di casa, ecc
Questo metodo ha anche pregiudizi, di sicuro, in quanto presuppone che tutte le persone di un determinato gruppo di blocchi sono ugualmente probabile visitare il tuo sito. Ma è qualcosa che puoi fare sul tuo sito, non solo su Google e Alexa, e ti darebbe comunque un senso relativo di chi sta visitando il tuo sito se i tuoi conteggi soft in una determinata categoria sono superiori alla media nazionale in quel categoria.
È anche possibile che una tecnica più sofisticata di semplici conteggi diretti possa portare a un risultato molto più ricco.
Buona domanda! Direi che stanno raccogliendo i nostri indirizzi IP attraverso i siti di social media e legando le informazioni in questo modo. – mpen