2013-07-01 13 views
10

una domanda forse semplice Ho provato a creare un errore come quello mostrato nella pagina 532 di Field "Discovering Statistics Using R".Interpretazione di "stat_summary = mean_cl_boot" su ggplot2?

Il codice può essere trovato qui http://www.sagepub.com/dsur/study/DSUR%20R%20Script%20Files/Chapter%2012%20DSUR%20GLM3.R:

line <- ggplot(gogglesData, aes(alcohol, attractiveness, colour = gender)) 
line + stat_summary(fun.y = mean, geom = "point") + 
stat_summary(fun.y = mean, geom = "line", aes(group= gender)) + 
stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width = 0.2) + 
labs(x = "Alcohol Consumption", y = "Mean Attractiveness of Date (%)", colour = "Gender") 

I prodotto stesso grafico; la mia variabile sull'asse y ha solo 4 punti (è una scala discreta, 1-4), ora l'asse y ha i punti 1.5, 2, 2.5 in cui le linee variano.

E la domanda è: cosa descrivono questi punti e questi grafici? Suppongo che la parte importante sia stat_summary(fun.data = mean_cl_boot, geom = "errorbar", width = 0.2) sono il conteggio delle osservazioni per quel gruppo e quel livello (asse x)? Sono frequenze? O sono proporzioni?

ho trovato questo http://docs.ggplot2.org/0.9.3/stat_summary.html ma non mi ha aiutato

Grazie

risposta

11

Ecco ciò che il ggplot2 book a pagina 83 dice di mean_cl_boot()

Function   Hmisc original  Middle Range 
mean_cl_boot() smean.cl.boot() Mean Standard error from bootstrap 

penso che sia il smean.cl.boot() dal pacchetto Hmisc, ma rinominato come mean.cl.boot() in ggplot2.

e here è la definizione della funzione originale pacchetto Hmisc:

smean.cl.boot è un'implementazione molto rapida del bootstrap non parametrico di base per ottenere limiti di confidenza per la media della popolazione senza assumere normalità

1

ho riprodotto il grafico usando il tuo codice e ottengo essenzialmente lo stesso grafico mostrato nel libro Field, Discovering Statistics Using R, figura 12.12, pagina 532, ad eccezione dell'ordinamento delle variabili sull'asse x. L'asse y mostra la variabile continua, Attrattiva media della data (%). Gli intervalli di confidenza al 95%, creati - come si fa notare - con la funzione stat_summary() e l'argomento mean_cl_boot sono intervalli di confidenza bootstrap che utilizzano la funzione smean.cl.boot() in Hmisc, come sottolineato da un altro commentatore sopra. Questa funzione è descritta a pagina 262 di Hmisc documentation. Ggplot2 documentation on mean_cl_boot è scarso e rimanda alla descrizione nel pacchetto Hmisc.

Si noti che gli argomenti per mean_cl_boot in ggplot2 sono gli stessi della funzione smean.cl.boot nel pacchetto Hmisc. È possibile modificare il livello di confidenza desiderato dall'impostazione predefinita di .95 utilizzando l'argomento conf.int e il numero di campioni di bootstrap utilizzando l'argomento B. Qui, ad esempio, è il codice per creare lo stesso grafico con un intervallo di confidenza del 99% e 5000 campioni di bootstrap:

line <- ggplot(gogglesData, aes(alcohol, attractiveness, colour = gender)) 
line + stat_summary(fun.y = mean, geom = "point") + 
stat_summary(fun.y = mean, geom = "line", aes(group= gender)) + 
stat_summary(fun.data = mean_cl_boot, conf.int = .99, B = 5000, geom = "errorbar", width = 0.2) + 
labs(x = "Alcohol Consumption", y = "Mean Attractiveness of Date (%)", colour = "Gender")