Forskel mellem standardafvigelse og standardfejl Forskel mellem
Indledning
Standard D eviation (SD) og S tandard > E rror (SE) er tilsyneladende lignende terminologier; Men de er begrebsmæssigt så varierede, at de bliver brugt næsten omveksling i Statistisk litteratur. Begge udtryk foregår normalt med et plus-minus-symbol (+/-), hvilket er tegn på, at de definerer en symmetrisk værdi eller repræsenterer en række værdier. Ubetinget forekommer begge udtryk med et gennemsnit (middelværdi) af et sæt målte værdier.
Interessant nok har et SE intet at gøre med standarder, med fejl eller med kommunikation af videnskabelige data.Et detaljeret kig på oprindelsen og forklaringen af SD og SE vil afsløre, hvorfor professionelle statistikere og dem der bruger det markant, har begge en tendens til at fejle.
Standardafvigelse (SD)
En SD er en
beskrivende statistik, der beskriver spredningen af en distribution. Som en metrisk er det nyttigt, når dataene normalt distribueres. Det er dog mindre nyttigt, når dataene er meget skæv eller bimodale, fordi det ikke beskriver meget godt fordelingens form. Typisk bruger vi SD, når vi rapporterer egenskaberne af prøven, fordi vi har til hensigt at beskrive , hvor meget dataene varierer omkring gennemsnittet. Andre nyttige statistikker til beskrivelse af dataspredningen er interkvartilinterval, 25 og 75 procentprocenter og dataintervallet.
beskrivende statistik også, og den defineres som kvadratet af standardafvigelsen. Det rapporteres normalt ikke ved beskrivelse af resultater, men det er en mere matematisk trækkende formel (a. K. A. Summen af kvadratiske afvigelser) og spiller en rolle i beregningen af statistikker. Hvis vi har to statistikker
P& Q med kendte afvigelser var (P) & < var (Q) , så er variansen af summen P + Q lig med summen af variationerne: var (P) + > var (Q) . Det er nu tydeligt, hvorfor statistikere kan lide at tale om afvigelser. Men standardafvigelser har en vigtig betydning for spredning, især når dataene normalt fordeles: Intervallet middelværdi +/- 1 SD kan forventes at fange 2/3 af prøven, og intervallet middelværdi + - 2 SD
kan forventes at opfange 95% af prøven. SD giver en indikation af, hvor langt de individuelle svar på et spørgsmål varierer eller "afviger" fra middelværdien.SD fortæller forskeren, hvordan udbredelsen af svarene er - er de koncentreret omkring det gennemsnitlige eller spredt vidt? Har alle dine respondenter vurderet dit produkt midt på din skala, eller godkendte nogle det, og nogle afviste det? Overvej et eksperiment, hvor respondenterne bliver bedt om at bedømme et produkt på en række attributter på en 5-punkts skala. Middelværdien for en gruppe på ti respondenter (mærket 'A' til 'J' nedenfor) for 'god værdi for pengene' var 3, 2 med en SD på 0,4, og gennemsnittet for "produktsikkerhed" var 3. 4 med et SD på 2. 1. Ved første øjekast (ser kun på midlerne) ser det ud til at pålideligheden er bedømt højere end værdi. Men det højere SD for pålidelighed kunne indikere (som vist i fordelingen nedenfor), at svarene var meget polariserede, hvor de fleste respondenter ikke havde nogen pålidelighedsproblemer (vurderet attributten en "5"), men et mindre, men vigtigt segment af respondenterne havde et pålidelighedsproblem og bedømt attributten "1". Når man ser på middelværdien alene, fortæller kun en del af historien, men oftere end det er det, forskerne fokuserer på. Fordelingen af svar er vigtig at overveje, og SD'en giver et værdifuldt beskrivende mål for dette. Respondent
God værdi for pengene
Produktpålidelighed
A
3 | 1 | B |
3 | 1 | C |
3 < 1 | D | 3 |
1 | E | 4 |
5 | F | 4 |
5 | G | 3 |
5 | H | 3 |
5 | I | 3 |
5 | J | 3 |
5 | Mean | 3. 2 |
3. 4 | Std. Dev. | 0. 4 |
2. 1 | Første undersøgelse: Respondenter vurderer et produkt på en 5-punkts skala | To meget forskellige fordelinger af svar på en 5-punkts vurderingskala kan give samme gennemsnit. Overvej følgende eksempel, der viser svarværdier for to forskellige klassifikationer. |
I det første eksempel (Vurdering "A") er SD nul, fordi ALLE svar var nøjagtigt middelværdien. De individuelle svar afvigende slet ikke fra det gennemsnitlige. | I vurderingen "B", selvom gruppen betyder, er den samme (3. 0) som den første distribution, er Standardafvigelsen højere. Standardafvigelsen på 1,15 viser, at de enkelte svar i gennemsnit * var lidt over 1 point væk fra gennemsnittet. | Respondent |
Rating "A"
Bedømmelse "B"
A
3
1 | B | 3 |
2 | C | 3 |
2 | D | 3 |
3 | E | 3 |
3 | F | 3 |
3 | G | 3 > 3 |
H | 3 | 4 |
I | 3 | 4 |
J | 3 | 5 |
Mean | 3. 0 | 3. 0 |
Std. Dev. | 0. 00 | 1. 15 |
Anden undersøgelse: Respondenter vurderer et produkt på en 5-punkts skala | En anden måde at se på SD er ved at plotte distributionen som et histogram af svar. En distribution med et lavt SD ville vise sig som en høj smal form, mens et stort SD ville blive angivet med en bredere form. | SD angiver generelt ikke "rigtigt eller forkert" eller "bedre eller værre" - en lavere SD er ikke nødvendigvis mere ønskelig. Den bruges udelukkende som en beskrivende statistik. Det beskriver fordelingen i forhold til middelværdien. |
T | Teknisk ansvarsfraskrivelse vedrørende SD | Tænkning af SD som en "gennemsnitlig afvigelse" er en glimrende måde at begrebsmæssigt forstå sin betydning på. Det er dog ikke beregnet som et gennemsnit (hvis det var, ville vi kalde det "gennemsnitlige afvigelse"). I stedet er det "standardiseret", en noget kompleks metode til at beregne værdien ved hjælp af summen af kvadraterne. |
For praktiske formål er beregningen ikke vigtig. De fleste tabulationsprogrammer, regneark eller andre værktøjer til datahåndtering beregner SD'en for dig. Mere vigtigt er at forstå, hvad statistikken formidler.
Standardfejl
En standardfejl er en
inferentiel statistik, som bruges ved sammenligning af prøveorganer (middelværdier) på tværs af befolkninger. Det er et mål på
præcision
af stikprøveværdien. Prøveværdien er en statistik stammer fra data, der har en underliggende fordeling. Vi kan ikke visualisere det på samme måde som dataene, da vi har udført et enkelt eksperiment og kun har en enkelt værdi. Statistisk teori fortæller os, at stikprøven betyder (for en stor "nok" prøve og under få regelmæssighedsforhold) er omtrent normalt fordelt. Standardafvigelsen for denne normale fordeling er, hvad vi kalder standardfejlen.
Figur 2.
Fordelingen i nederste repre senterer fordelingen af dataene, medens fordelingen øverst er den teoretiske fordeling af prøveværdien. SD'en på 20 er et mål for spredningen af dataene, mens SE'en af 5 er et mål for usikkerhed omkring stikprøven. Når vi vil sammenligne middelværdierne fra et to-prøveeksperiment af Behandling A vs Behandling B, skal vi estimere, hvor præcist vi har målt midlerne. Faktisk er vi interesserede i, hvor præcist vi har målt forskellen mellem de to midler. Vi kalder denne foranstaltning standardfejl for forskellen. Du kan ikke være overrasket over at lære, at standardfejlen i forskellen i prøveorganet er en funktion af standardfejlene i midlerne: Nu hvor du har forstået, at standardfejlen af middelværdien (SE) og den Standardafvigelsen af fordelingen (SD) er to forskellige dyr, du lurer måske på, hvordan de blev forvirret i første omgang. Mens de adskiller sig fra hinanden, har de et simpelt forhold matematisk:
, hvor n er antallet af datapunkter. Bemærk, at standardfejlen afhænger af to komponenter: standardafvigelsen af prøven og størrelsen af prøven n. Dette giver intuitiv mening: Jo større standardafvigelsen af prøven er, desto mindre præcis kan vi tale om vores skøn over det sande middel.
Også den store stikprøvestørrelse, jo mere information vi har om befolkningen og mere præcist kan vi estimere det sande middelværdi.
SE er en indikation af pålideligheden af middelværdien. En lille SE er en indikation på, at stikprøven betyder en mere præcis afspejling af den faktiske populationsmiddel.En større stikstørrelse vil normalt resultere i et mindre SE (mens SD ikke er direkte påvirket af stikstørrelsen).De fleste undersøgelser indebærer at tegne en prøve fra en befolkning. Vi danner derefter overvejelser om befolkningen fra de resultater, der er opnået fra denne prøve. Hvis en anden prøve blev trukket, vil resultaterne sandsynligvis ikke nøjagtigt svare til den første prøve. Hvis gennemsnitsværdien for en ratingattribut var 3. 2 for en prøve, kan det være 3. 4 for en anden prøve af samme størrelse. Hvis vi skulle tegne et uendeligt antal prøver (af samme størrelse) fra vores befolkning, kunne vi vise de observerede midler som en fordeling. Vi kunne derefter beregne et gennemsnit af alle vores prøvemidler. Dette betyder, at det ville svare til den sande befolkningsmiddel. Vi kan også beregne SD af fordelingen af prøveorganer. SD'en af denne fordeling af prøveorganer er SE'en af hvert enkelt prøvemiddelmiddel.
Vi har således vores mest betydningsfulde observation: SE er SD af befolkningsmiddelet. Sample
Mean
1.
3. 2
2. 3. 4
3. | 3. 3 |
4. | 3. 2 |
5. | 3. 1 |
…. | …. |
…. | …. |
…. | …. |
…. | …. |
…. | …. |
Mean | 3. 3 |
Std. Dev. | 0. 13 |
Tabel illustrerer forholdet mellem SD og SE | Det er nu klart, at hvis SD'en i denne fordeling hjælper os med at forstå, hvor langt en prøve betyder fra den sande befolkning, betyder det, at vi kan bruge dette til at forstå, hvordan nøjagtige ethvert enkelt middelværdi er i forhold til det sande middelværdi. Det er essensen af SE. |
I virkeligheden har vi kun trukket en enkelt prøve fra vores befolkning, men vi kan bruge dette resultat til at give et skøn over pålideligheden af vores observerede prøve gennemsnit. | |
SE fortæller os faktisk, at vi kan være 95% sikre på, at vores observerede stikværdi er plus eller minus ca. 2 (faktisk 1. 96) Standardfejl fra populationens gennemsnit. | Nedenstående tabel viser fordelingen af svar fra vores første (og eneste) prøve anvendt til vores forskning. SE af 0. 13, der er relativt lille, giver os en indikation på, at vores gennemsnit er relativt tæt på det sande gennemsnit af vores samlede befolkning. Fejlmarginen (ved 95% tillid) for vores gennemsnit er (omtrent) to gange den værdi (+/- 0. 26) og fortæller os, at det sande middel er mest sandsynligt mellem 2. 94 og 3. 46. |
Respondenten
VurderingA
3
B
3