2012-10-12 38 views
6

Non capisco cosa significhi il valore p in questa uscita. Non intendo p-value in quanto tale, ma in questo caso.Confronto tra due modelli lineari con anova() in R

> Model 1: sl ~ le + ky 
> Model 2: sl ~ le 
    Res.Df  RSS Df Sum of Sq  F Pr(>F) 
1  97 0.51113        
2  98 0.51211 -1 -0.00097796 0.1856 0.6676 

Ho qualcosa di simile, e ora mi chiedo quale modello è la soluzione migliore. Dato che ci sono solo UN e non DUE valori di p, mi sto confondendo. ottengo diverse pvalues ​​utilizzando sintesi (model1) o di sintesi (model2)

Ora, se

> fm2<-lm(Y~X+T) 

(T essere il mio indicatore variabile) e

> fm4<-lm(Y~X) 

se faccio

> anova(fm2,fm4) 

questo test l'ipotesi nulla H0: alpha1==alpha2 (Ha: alpha1!=alpha2) c (alfa essere mio intercetta) Così è testato se sia meglio avere un'intercetta (=>alpha1==alpha2), o due intercetta (alpha1!=alpha2)

In questo caso avremmo ora respingere ovviamente l'ipotesi nulla, poiché il valore p è 0.6676.

Ciò significherebbe piuttosto attenersi al modello fm4, poiché è più appropriato per i nostri dati.

Ho tratto le conclusioni giusto? Ho fatto del mio meglio, ma non sono sicuro di cosa significhi il valore p. Dato che c'è solo, questo è quello che pensavo potesse significare. Qualcuno può chiarire le cose?

risposta

5

Vuoi dire " rifiutare ovviamente l'ipotesi nulla" (piuttosto che "ora ovviamente rifiutare")? Sembrerebbe avere più senso dato il resto della tua domanda.

C'è solo un valore p perché ci sono due modelli da confrontare, quindi un solo confronto (ipotesi nulla rispetto a alternativa, o in questo caso ipotesi nulla rispetto a alternativa non specificata). Sembra da quello che hai detto sopra come se le fosse un continuo e ky è un predittore categoriale, nel qual caso stai confrontando un modello con una pendenza e un'intercetto contro (come hai detto) un modello con una sola pendenza e due intercettazioni . Poiché il valore p è relativamente grande, ciò significa che i dati non forniscono evidenza di un effetto additivo di ky. Il modello più semplice sarebbe generalmente più appropriato (sebbene si faccia attenzione a questa conclusione, poiché i valori di p sono costruiti per verificare le ipotesi, non per scegliere tra i modelli).

I valori di p per summary() di ogni singolo modello sono i p-value per gli effetti di ciascuno dei parametri in ciascun modello, condizionali per tutti gli altri parametri in quel modello. Se i tuoi dati sono perfettamente bilanciati (il che è improbabile in un disegno di regressione), dovresti ottenere le stesse risposte da summary e anova, ma in genere i risultati da anova sono generalmente preferibili.

Questa domanda è probabilmente più appropriata per http://stats.stackexchange.com, poiché si tratta di un'interpretazione statistica piuttosto che di una programmazione ...

Problemi correlati