2008-08-04 11 views
12

Sto scrivendo un'app per facilitare la ricerca, e parte di questo implica fare alcuni calcoli statistici. In questo momento, i ricercatori stanno usando un programma chiamato SPSS. Parte della produzione che si preoccupano si presenta così:Come si calcolano queste statistiche?

[Part of the SPSS output

sono davvero solo preoccupati per i valori F e Sig.. Il mio problema è che non ho alcun background in statistica, e non riesco a capire come vengono chiamati i test o come calcolarli.

Ho pensato che il valore F potrebbe essere il risultato dello F-test, ma dopo aver seguito i passaggi forniti su Wikipedia, ho ottenuto un risultato diverso da quello fornito da SPSS.

+0

Qualcuno può aggiustare l'immagine, è una rottura della formattazione –

risposta

4

This website potrebbe aiutarti un po 'di più. Anche this one.

sto lavorando da una memoria abbastanza arrugginita di un corso di statistica, ma qui va niente:

quando si sta facendo l'analisi della varianza (ANOVA), in realtà si calcola la statistica F come il rapporto dal varianze quadratiche medie "tra i gruppi" e le varianze quadratiche medie "all'interno dei gruppi". Il secondo link sopra sembra abbastanza buono per questo calcolo.

Questo rende la statistica F esattamente quanto è potente il tuo modello, perché la varianza "tra i gruppi" è la potenza esplicativa e la varianza "all'interno dei gruppi" è un errore casuale. L'alta F implica un modello molto significativo.

Come in molte operazioni statistiche, si determina di nuovo il Sig. usando la statistica F. Ecco dove le informazioni su Wikipedia sono leggermente utili. Quello che vuoi fare è - usando i gradi di libertà dati da SPSS - trovare il valore P corretto al quale uno F table ti darà la statistica F che hai calcolato. Il valore P dove ciò accade [F (table) = F (calcolato)] è il significato.

Concettualmente, un valore di significatività inferiore mostra una capacità molto forte di rifiutare l'ipotesi nulla (che per questi scopi significa determinare il potere esplicativo del modello).

Ci scusiamo se qualcuno di matematica ha torto. Tornerò a controllare per apportare modifiche !!!

Buona fortuna a voi. Le statistiche sono divertenti, solo forse non questa parte. =)

+0

Questa è una tabella dei risultati multivariata, che esclude ANOVA. Potrebbe essere un MANOVA, un'analisi della funzione discriminata o uno dei molti altri test multivariati. Per farla breve, le statistiche sono difficili, lavorate a stretto contatto con i professionisti e scrivete SPSS tramite python invece di far girare il vostro. –

2

Le statistiche sono difficili :-). Dopo un anno di lettura e rilettura di libri e documenti, posso solo dire con certezza che ne capisco le basi.

Si potrebbe desiderare di esaminare le librerie già pronte per qualsiasi linguaggio di programmazione si sta utilizzando, perché sono molti in matematica in generale e le statistiche in particolare (gli errori di arrotondamento sono un esempio ovvio).

Ad esempio è possibile dare un'occhiata a the R project, che è sia un ambiente interattivo che una libreria che è possibile utilizzare dal proprio codice C++, distribuito sotto GPL (cioè se lo si utilizza solo internamente e si pubblica solo il risultati, non è necessario aprire il codice).

2

In breve: non farlo a mano, collegare/utilizzare il software esistente. E la risposta di sain_grocen non è corretta.:(

Questi sono tutti test per la significatività delle stime dei parametri che sono tipicamente utilizzati nella risposta multivariata Regressioni multiple.Queste non sarebbero cose semplici da fare al di fuori di un ambiente di programmazione statistico.Vorrei suggerire di ottenere l'output da un pre -esistente programma statistico, o usando uno a cui è possibile collegarsi e utilizzare quel codice

Ho paura che la prima risposta (sain_grocen's) ti guidi lungo il percorso sbagliato. La sua spiegazione è probabilmente di un caso speciale di ciò che stai effettivamente affrontando. L'anova spiegata nei suoi collegamenti è per una singola risposta variata, in un design bilanciato.Queste non sono le statistiche F che stai vedendo.I nomi nella tua produzione (Pillai's Trace, Hotelling's Trace, .. .) sono alcuni dei mult disponibili versioni ivariate. Hanno distribuzioni F sotto determinate ipotesi. Non posso spiegare un libro di libri di valore qui, ti consiglierei di iniziare guardando "Analisi statistica multivariata applicata" di Johnson e Wichern

0

Puoi spiegare di più perché SPSS non è una buona soluzione al problema? È che genera tabelle pivot come output difficili da manipolare? È il costo del programma?

Le statistiche F possono derivare da qualsiasi numero di test particolari. La F è solo una distribuzione (vagamente: una descrizione delle "frequenze" di gruppi di valori), come una Normale (Gaussiana) o Uniforme. In generale derivano da rapporti di varianza. Opinione: molti statistici (incluso me stesso), trovano che i test basati su F siano instabili (gergo: non robusto).

Le particolari statistiche di output (traccia di Pillai, ecc.) Suggeriscono che l'analisi originale è un esempio di MANOVA, che, come descritto da altri poster, è una procedura complicata e difficile da ottenere.

Immagino anche che, sulla base del MANOVA, e dell'uso di SPSS, questo sia un progetto di psicologia o sociologia ... se no, per favore illumini. Potrebbe essere che altri modelli più semplici potrebbero effettivamente essere più facili da capire e più ripetibili. Consulta il tuo gruppo di consulenza statistica dell'università locale, se ne hai uno.

Buona fortuna!

3

Presumo dalla tua domanda che i tuoi colleghi di ricerca desiderano automatizzare il processo mediante il quale vengono eseguite determinate analisi statistiche (cioè, desiderano elaborare in batch i set di dati). Avete due opzioni:

1) SPSS è ora eseguibile tramite script python (dalla versione 15) - andare su spss.com e cercare python. È possibile scrivere script Python per automatizzare l'analisi dei dati ed estrarre i valori chiave dalle tabelle pivot e quindi elaborare le risposte nel modo desiderato. Ciò ha il merito di consentire un confronto esatto tra i risultati del tuo script python e gli sforzi calcolati a mano in SPSS dei tuoi collaboratori. Quindi non dovrai conoscere davvero nessuna statistica per fare questo lavoro (che è un vantaggio chiave)

2) Puoi farlo in R, un ambiente di statistiche gratuito, che potrebbe probabilmente essere copiato. Questo ha lo svantaggio che dovrai imparare le statistiche per assicurarti di farlo correttamente.

+0

Buono a sapersi che SPSS è ora programmabile tramite Python direttamente! Può produrre risultati anche in testo normale ora? Inoltre, R è anche programmabile tramite script (anche se R o attraverso Python, usando RPy). –

0

Ecco una spiegazione di MANOVA ouptput, da un ottimo sito sulle statistiche e SPSS:

Uscita con spiegazione: http://faculty.chass.ncsu.edu/garson/PA765/manospss.htm

Come e perché fare MANOVA o multivariata GLM: (stesso percorso come sopra, ma terminando in '/ manova.htm ')

Scrivere software da zero per calcolare queste uscite sarebbe lungo e difficile; ci sono un sacco di problemi numerici e inversioni di matrice da fare.

Come diceva Henry, utilizzare gli script Python o R. Suggerirei di lavorare con qualcuno che conosce SPSS se esegue lo scripting. Inoltre, SPSS è in grado di esportare le tabelle di output in file utilizzando qualcosa chiamato OMS. Uno script all'interno di SPSS può farlo.

Scopri chi nel tuo gruppo di ricerca conosce SPSS e collabora con loro.

Problemi correlati