Sådan beregnes kvadratafvigelse. Sådan finder du standardafvigelse

I denne artikel vil jeg tale om hvordan man finder standardafvigelse. Dette materiale er ekstremt vigtigt for en fuld forståelse af matematik, så en matematikvejleder bør afsætte en separat lektion eller endda flere til at studere det. I denne artikel finder du et link til en detaljeret og forståelig videovejledning, der forklarer, hvad standardafvigelse er, og hvordan du finder den.

Standardafvigelse gør det muligt at evaluere spredningen af ​​værdier opnået som et resultat af måling af en bestemt parameter. Angivet med symbolet (græsk bogstav "sigma").

Formlen til beregning er ret enkel. For at finde standardafvigelsen skal du tage kvadratroden af ​​variansen. Så nu skal du spørge: "Hvad er varians?"

Hvad er varians

Definitionen af ​​varians lyder sådan her. Dispersion er det aritmetiske gennemsnit af de kvadrerede afvigelser af værdier fra middelværdien.

For at finde variansen skal du udføre følgende beregninger sekventielt:

  • Bestem gennemsnittet (simpelt aritmetisk gennemsnit af en række værdier).
  • Træk derefter gennemsnittet fra hver værdi og kvadreret den resulterende forskel (du får kvadratisk forskel).
  • Det næste trin er at beregne det aritmetiske middelværdi af de resulterende kvadratforskelle (Du kan finde ud af, hvorfor kvadraterne er præcis nedenfor).

Lad os se på et eksempel. Lad os sige, at du og dine venner beslutter at måle højden på dine hunde (i millimeter). Som resultat af målingerne fik du følgende højdemål (på manken): 600 mm, 470 mm, 170 mm, 430 mm og 300 mm.

Lad os beregne middelværdien, variansen og standardafvigelsen.

Lad os først finde gennemsnitsværdien. Som du allerede ved, for at gøre dette skal du tilføje alle de målte værdier og dividere med antallet af målinger. Beregningsforløb:

Gennemsnitlig mm.

Så gennemsnittet (aritmetisk gennemsnit) er 394 mm.

Nu skal vi bestemme afvigelse af hver hunds højde fra gennemsnittet:

Endelig, at beregne varians, kvadrerer vi hver af de resulterende forskelle og finder derefter det aritmetiske middelværdi af de opnåede resultater:

Dispersion mm 2 .

Således er spredningen 21704 mm 2.

Sådan finder du standardafvigelse

Så hvordan kan vi nu beregne standardafvigelsen ved at kende variansen? Som vi husker, tag kvadratroden af ​​det. Det vil sige, at standardafvigelsen er lig med:

Mm (afrundet til nærmeste hele tal i mm).

Ved at bruge denne metode fandt vi ud af, at nogle hunde (for eksempel rottweilere) er meget store hunde. Men der er også meget små hunde (for eksempel gravhunde, men det skal du ikke fortælle dem).

Det mest interessante er, at standardafvigelsen fører med sig nyttige oplysninger. Nu kan vi vise, hvilke af de opnåede højdemålingsresultater, der ligger inden for det interval, vi får, hvis vi plotter standardafvigelsen fra gennemsnittet (til begge sider af det).

Det vil sige, at vi ved hjælp af standardafvigelsen opnår en "standard" metode, der giver os mulighed for at finde ud af, hvilken af ​​værdierne der er normal (statistisk gennemsnit), og hvilken der er ekstraordinært stor eller omvendt lille.

Hvad er standardafvigelse

Men... alt bliver lidt anderledes, hvis vi analyserer prøve data. I vores eksempel overvejede vi almindelig befolkning. Det vil sige, at vores 5 hunde var de eneste hunde i verden, der interesserede os.

Men hvis dataene er en stikprøve (værdier udvalgt fra en stor population), så skal beregningerne gøres anderledes.

Hvis der er værdier, så:

Alle andre beregninger udføres tilsvarende, herunder bestemmelse af gennemsnittet.

For eksempel, hvis vores fem hunde blot er et udsnit af hundepopulationen (alle hunde på planeten), skal vi dividere med 4, ikke 5, nemlig:

Prøvevarians = mm 2.

I dette tilfælde er standardafvigelsen for prøven lig med mm (afrundet til nærmeste hele tal).

Vi kan sige, at vi har lavet en "korrektion" i det tilfælde, hvor vores værdier kun er et lille udsnit.

Note. Hvorfor præcis kvadratiske forskelle?

Men hvorfor tager vi præcis de kvadratiske forskelle, når vi beregner variansen? Lad os sige, at når du målte en eller anden parameter, modtog du følgende sæt værdier: 4; 4; -4; -4. Hvis vi blot lægger de absolutte afvigelser fra middelværdien (forskellene) sammen... negative værdier vil gensidigt annullere med positive:

.

Det viser sig, at denne mulighed er ubrugelig. Så er det måske værd at prøve de absolutte værdier af afvigelserne (det vil sige modulerne af disse værdier)?

Ved første øjekast viser det sig godt (den resulterende værdi kaldes i øvrigt den gennemsnitlige absolutte afvigelse), men ikke i alle tilfælde. Lad os prøve et andet eksempel. Lad målingen resultere i følgende sæt værdier: 7; 1; -6; -2. Så er den gennemsnitlige absolutte afvigelse:

Wow! Igen fik vi et resultat på 4, selvom forskellene har en meget større spredning.

Lad os nu se, hvad der sker, hvis vi kvadrerer forskellene (og derefter tager kvadratroden af ​​deres sum).

For det første eksempel vil det være:

.

For det andet eksempel vil det være:

Nu er det en helt anden sag! Jo større spredningen af ​​forskellene er, jo større standardafvigelse... hvilket er det, vi sigtede efter.

Faktisk i denne metode Den samme idé bruges som ved beregning af afstanden mellem punkter, kun anvendt på en anden måde.

Og fra et matematisk synspunkt er brugen af ​​kvadrater og kvadratrødder giver mere fordel, end vi kunne få fra absolutte værdier af afvigelser, hvilket gør standardafvigelsen gældende for andre matematiske problemer.

Sergey Valerievich fortalte dig, hvordan du finder standardafvigelsen

X i - tilfældige (aktuelle) variable;

gennemsnitsværdien af ​​tilfældige variabler for stikprøven beregnes ved hjælp af formlen:

Så, varians er det gennemsnitlige kvadrat af afvigelser . Det vil sige, at gennemsnitsværdien først beregnes og derefter tages forskellen mellem hver original- og gennemsnitsværdi er kvadreret , tilføjes og divideres derefter med antallet af værdier i populationen.

Forskellen mellem en individuel værdi og gennemsnittet afspejler målet for afvigelsen. Den er kvadreret, så alle afvigelser udelukkende bliver positive tal og for at undgå gensidig ødelæggelse af positive og negative afvigelser, når de summeres. Så, givet de kvadrerede afvigelser, beregner vi blot det aritmetiske middelværdi.

Løsning magiske ord"spredning" består blot af disse tre ord: middel - kvadratisk - afvigelser.

Standardafvigelse (MSD)

Tager vi kvadratroden af ​​variansen, får vi den såkaldte " standardafvigelse". Der er navne "standardafvigelse" eller "sigma" (fra navnet på det græske bogstav σ .). Formlen for standardafvigelsen er:

Så, dispersion er sigma-kvadret, eller er standardafvigelsen kvadratisk.

Standardafvigelsen karakteriserer naturligvis også målet for dataspredning, men nu (i modsætning til spredning) kan den sammenlignes med de oprindelige data, da de har de samme måleenheder (dette fremgår tydeligt af beregningsformlen). Variationsområdet er forskellen mellem ekstreme værdier. Standardafvigelse, som et mål for usikkerhed, er også involveret i mange statistiske beregninger. Med dens hjælp bestemmes graden af ​​nøjagtighed af forskellige estimater og prognoser. Hvis variationen er meget stor, så vil standardafvigelsen også være stor, og derfor vil prognosen være unøjagtig, hvilket for eksempel kommer til udtryk i meget brede konfidensintervaller.

Derfor, i metoder til statistisk databehandling i ejendomsvurderinger, afhængigt af den krævede nøjagtighed af opgaven, anvendes to- eller tre sigma-reglen.

For at sammenligne to-sigma-reglen og tre-sigma-reglen bruger vi Laplaces formel:

F - F ,

hvor Ф(x) er Laplace-funktionen;



Minimumsværdi

β = maksimumværdi

s = sigma-værdi (standardafvigelse)

a = gennemsnit

I dette tilfælde bruges det privat udsigt Laplaces formel, når grænserne α og β for værdierne af den stokastiske variabel X er lige adskilt fra midten af ​​fordelingen a = M(X) med en bestemt værdi d: a = a-d, b = a+d. Eller (1) Formel (1) bestemmer sandsynligheden for en given afvigelse d af en stokastisk variabel X med en normalfordelingslov fra dens matematiske forventning M(X) = a.

Hvis vi i formel (1) tager sekventielt d = 2s og d = 3s, får vi: (2), (3).

To sigma regel

Det kan være næsten pålideligt (med en konfidenssandsynlighed på 0,954), at alle værdier af en stokastisk variabel X med en normalfordelingslov afviger fra dens matematiske forventning M(X) = a med et beløb, der ikke er større end 2s (to standardafvigelser) ). Tillidssandsynlighed (Pd) er sandsynligheden for hændelser, der konventionelt accepteres som pålidelige (deres sandsynlighed er tæt på 1). Lad os illustrere to-sigma-reglen geometrisk. I fig. Figur 6 viser en Gauss-kurve med fordelingscenter a. Området afgrænset af hele kurven og Ox-aksen er 1 (100%), og arealet mellem abscissen a–2s og a+2s, ifølge two-sigma-reglen, er lig med 0,954 (95,4% af det samlede areal). Arealet af de skraverede områder er 1-0,954 = 0,046 (»5% af det samlede areal). Disse områder kaldes det kritiske område af den stokastiske variabel. Værdier af en tilfældig variabel, der falder ind i det kritiske område, er usandsynlige og i praksis accepteres konventionelt som umulige.

Sandsynligheden for betinget umulige værdier kaldes signifikansniveauet for en tilfældig variabel. Signifikansniveauet er relateret til konfidenssandsynligheden med formlen:

hvor q er signifikansniveauet udtrykt i procent.

Tre sigma regel

Ved løsning af problemer, der kræver større pålidelighed, når konfidenssandsynligheden (Pd) tages lig med 0,997 (mere præcist, 0,9973), i stedet for to-sigma reglen, ifølge formel (3), anvendes reglen. tre sigma



Ifølge tre sigma regel med en konfidenssandsynlighed på 0,9973 vil det kritiske område være området med attributværdier uden for intervallet (a-3s, a+3s). Signifikansniveauet er 0,27 %.

Med andre ord er sandsynligheden for, at den absolutte værdi af afvigelsen overstiger den tredobbelte standardafvigelse, meget lille, nemlig 0,0027 = 1-0,9973. Det betyder, at kun 0,27 % af tilfældene vil ske. Sådanne hændelser, baseret på princippet om umuligheden af ​​usandsynlige hændelser, kan anses for praktisk taget umulige. Dem. prøveudtagningen er meget nøjagtig.

Dette er essensen af ​​tre sigma-reglen:

Hvis en stokastisk variabel er normalfordelt, så overstiger den absolutte værdi af dens afvigelse fra den matematiske forventning ikke tre gange standardafvigelsen (MSD).

I praksis anvendes tre-sigma-reglen som følger: hvis fordelingen af ​​den stokastiske variabel, der undersøges, er ukendt, men betingelsen angivet i ovenstående regel er opfyldt, er der grund til at antage, at den variable, der undersøges, er normalfordelt. ; ellers er den ikke normalfordelt.

Betydningsniveauet tages afhængigt af den tilladte risikograd og opgaven. Til ejendomsvurdering anvendes normalt en mindre præcis prøve efter to-sigma-reglen.

Kloge matematikere og statistikere kom op med en mere pålidelig indikator, dog til et lidt andet formål - gennemsnit lineær afvigelse . Denne indikator karakteriserer spredningsmålet for værdierne af et datasæt omkring deres gennemsnitsværdi.

For at vise mål for dataspredning skal du først tage stilling til, hvad denne spredning vil blive beregnet - normalt er dette gennemsnitsværdien. Dernæst skal du beregne, hvor langt værdierne af det analyserede datasæt er fra gennemsnittet. Det er klart, at hver værdi svarer til en vis afvigelsesværdi, men vi er interesserede i den samlede vurdering, der dækker hele populationen. Derfor beregnes den gennemsnitlige afvigelse ved hjælp af den sædvanlige aritmetiske middelværdiformel. Men! Men for at beregne gennemsnittet af afvigelserne skal de først lægges sammen. Og hvis vi tilføjer positive og negative tal, vil de ophæve hinanden, og deres sum vil vende mod nul. For at undgå dette tages alle afvigelser modulo, det vil sige, at alle negative tal bliver positive. Nu vil den gennemsnitlige afvigelse vise et generaliseret mål for spredningen af ​​værdier. Som et resultat vil den gennemsnitlige lineære afvigelse blive beregnet ved hjælp af formlen:

-en- gennemsnitlig lineær afvigelse,

x– den analyserede indikator med en streg over – indikatorens gennemsnitlige værdi

n– antal værdier i det analyserede datasæt,

Jeg håber, at summeringsoperatøren ikke skræmmer nogen.

Den gennemsnitlige lineære afvigelse beregnet ved hjælp af den angivne formel afspejler den gennemsnitlige absolutte afvigelse fra gennemsnitsværdien for en given population.

På billedet er den røde linje gennemsnitsværdien. Hver observations afvigelser fra middelværdien er angivet med små pile. De tages modulo og opsummeres. Derefter divideres alt med antallet af værdier.

For at fuldende billedet skal vi give et eksempel. Lad os sige, at der er et firma, der producerer stiklinger til skovle. Hver stikling skal være 1,5 meter lang, men endnu vigtigere, de skal alle være ens, eller mindst plus eller minus 5 cm. Men skødesløse arbejdere vil afskære enten 1,2 m eller 1,8 m. Sommerbeboere er utilfredse. Direktøren for virksomheden besluttede at foretage en statistisk analyse af længden af ​​stiklinger. Jeg valgte 10 stykker og målte deres længde, fandt gennemsnittet og beregnede den gennemsnitlige lineære afvigelse. Gennemsnittet viste sig at være lige hvad der skulle til - 1,5 m Men den gennemsnitlige lineære afvigelse var 0,16 m. Så det viser sig, at hver klipning er 16 cm længere eller kortere arbejdere. Jeg har faktisk ikke set nogen reel brug denne indikator, så jeg fandt selv på eksemplet. Der er dog en sådan indikator i statistikken.

Spredning

Ligesom den gennemsnitlige lineære afvigelse afspejler variansen også omfanget af spredningen af ​​data omkring middelværdien.

Formlen til beregning af varians ser således ud:

(for variationsserier (vægtet varians))

(for ikke-grupperede data (simpel varians))

Hvor: σ 2 – dispersion, Xi– vi analyserer sq-indikatoren (værdien af ​​karakteristikken), – gennemsnitsværdien af ​​indikatoren, f i – antallet af værdier i det analyserede datasæt.

Dispersion er det gennemsnitlige kvadrat af afvigelser.

Først beregnes gennemsnitsværdien, derefter tages forskellen mellem hver original- og gennemsnitsværdi, kvadreres, ganges med frekvensen af ​​den tilsvarende attributværdi, tilføjes og derefter divideres med antallet af værdier i populationen.

Dog i ren form, såsom det aritmetiske gennemsnit eller indeks, varians bruges ikke. Dette er snarere en hjælpe- og mellemindikator, der bruges til andre typer statistisk analyse.

En forenklet måde at beregne varians på

Standardafvigelse

For at bruge variansen til dataanalyse tages kvadratroden af ​​variansen. Det viser sig den såkaldte standardafvigelse.

Forresten kaldes standardafvigelse også sigma - fra det græske bogstav, der betegner det.

Standardafvigelsen karakteriserer naturligvis også målet for dataspredning, men nu (i modsætning til varians) kan den sammenlignes med de originale data. Som regel giver rodmiddelkvadratmål i statistik mere nøjagtige resultater end lineære. Derfor er standardafvigelsen et mere nøjagtigt mål for spredningen af ​​dataene end den lineære middelafvigelse.

Forventning og varians

Lad os måle en tilfældig variabel N gange måler vi for eksempel vindhastigheden ti gange og vil finde gennemsnitsværdien. Hvordan er gennemsnitsværdien relateret til fordelingsfunktionen?

Vi kaster terningerne et stort antal gange. Antallet af point, der vises på terningerne ved hvert kast, er en tilfældig variabel og kan tage en hvilken som helst naturværdi fra 1 til 6. Det aritmetiske gennemsnit af de tabte point beregnet for alle terningkast er også en tilfældig variabel, men for store N det har tendens til et meget specifikt tal - matematisk forventning M x. I dette tilfælde M x = 3,5.

Hvordan fik du denne værdi? Slip ind N prøver, når du får 1 point, når du får 2 point, og så videre. Så hvornår N→ ∞ antal udfald, hvor et point blev kastet, Tilsvarende, Derfor

Model 4.5. Terninger

Lad os nu antage, at vi kender fordelingsloven for den stokastiske variabel x, det vil sige, at vi ved, at den stokastiske variabel x kan tage værdier x 1 , x 2 , ..., x k med sandsynligheder s 1 , s 2 , ..., p k.

Forventning M x tilfældig variabel x er lig med:

Svar. 2,8.

Den matematiske forventning er ikke altid et rimeligt estimat af en eller anden tilfældig variabel. Så for at estimere gennemsnittet løn Det giver mere mening at bruge begrebet median, det vil sige en sådan værdi, at antallet af personer, der modtager en lavere løn end medianen og en større, er sammenfaldende.

Median tilfældig variabel kaldes et tal x 1/2 er sådan s (x < x 1/2) = 1/2.

Med andre ord sandsynligheden s 1, at den stokastiske variabel x vil være mindre x 1/2, og sandsynlighed s 2, at den stokastiske variabel x vil være større x 1/2 er identiske og lig med 1/2. Medianen er ikke entydigt bestemt for alle distributioner.

Lad os vende tilbage til den tilfældige variabel x, som kan tage værdier x 1 , x 2 , ..., x k med sandsynligheder s 1 , s 2 , ..., p k.

Varians tilfældig variabel x Den gennemsnitlige værdi af den kvadrerede afvigelse af en tilfældig variabel fra dens matematiske forventning kaldes:

Eksempel 2

Under betingelserne i det foregående eksempel skal du beregne variansen og standardafvigelsen af ​​den tilfældige variabel x.

Svar. 0,16, 0,4.

Model 4.6. At skyde mod et mål

Eksempel 3

Find sandsynlighedsfordelingen af ​​antallet af point opnået ved det første terningkast, medianen, den matematiske forventning, variansen og standardafvigelsen.

Enhver kant er lige så sandsynligt, at den falder ud, så fordelingen vil se sådan ud:

Standardafvigelse Det ses, at værdiens afvigelse fra gennemsnitsværdien er meget stor.

Egenskaber ved matematisk forventning:

  • Den matematiske forventning af summen af ​​uafhængige stokastiske variable er lig med summen af ​​deres matematiske forventninger:

Eksempel 4

Find den matematiske forventning til summen og produktet af point kastet på to terninger.

I eksempel 3 fandt vi det for en terning M (x) = 3,5. Altså for to terninger

Dispersionsegenskaber:

  • Variansen af ​​summen af ​​uafhængige stokastiske variable er lig med summen af ​​varianserne:

Dx + y = Dx + Dy.

Lad for N kaster på terningerne y point. Så

Dette resultat gælder ikke kun for terningkast. I mange tilfælde bestemmer det nøjagtigheden af ​​at måle den matematiske forventning empirisk. Det kan ses med stigende antal målinger N spredningen af ​​værdier omkring gennemsnittet, det vil sige standardafvigelsen, falder proportionalt

Variansen af ​​en tilfældig variabel er relateret til den matematiske forventning af kvadratet af denne tilfældige variabel ved følgende relation:

Lad os finde de matematiske forventninger fra begge sider af denne lighed. Per definition,

Den matematiske forventning til højre side af ligheden er ifølge egenskaben ved matematiske forventninger lig med

Standardafvigelse

Standardafvigelse lig med kvadratroden af ​​variansen:
Ved bestemmelse af standardafvigelsen for et tilstrækkeligt stort volumen af ​​den population, der undersøges (n > 30), anvendes følgende formler:

Relaterede oplysninger.


Et af de vigtigste værktøjer til statistisk analyse er beregningen af ​​standardafvigelse. Denne indikator giver dig mulighed for at estimere standardafvigelsen for en prøve eller for en population. Lad os lære, hvordan du bruger standardafvigelsesformlen i Excel.

Lad os straks bestemme, hvad standardafvigelsen er, og hvordan dens formel ser ud. Denne størrelse er kvadratroden af ​​det aritmetiske gennemsnit af kvadraterne af forskellen mellem alle mængder i serien og deres aritmetiske middelværdi. Der er et identisk navn for denne indikator - standardafvigelse. Begge navne er fuldstændig ækvivalente.

Men i Excel behøver brugeren naturligvis ikke at beregne dette, da programmet gør alt for ham. Lad os lære, hvordan man beregner standardafvigelse i Excel.

Beregning i Excel

Du kan beregne den angivne værdi i Excel ved hjælp af to specialfunktioner STDEV.V(baseret på stikprøvepopulationen) og STDEV.G(baseret på den generelle befolkning). Princippet for deres drift er absolut det samme, men de kan kaldes på tre måder, som vi vil diskutere nedenfor.

Metode 1: Funktionsguiden


Metode 2: Formler Tab


Metode 3: Manuel indtastning af formlen

Der er også en måde, hvorpå du slet ikke behøver at kalde argumentvinduet. For at gøre dette skal du indtaste formlen manuelt.


Som du kan se, er mekanismen til beregning af standardafvigelse i Excel meget enkel. Brugeren behøver kun at indtaste tal fra populationen eller referencer til de celler, der indeholder dem. Alle beregninger udføres af programmet selv. Det er meget sværere at forstå, hvad den beregnede indikator er, og hvordan beregningsresultaterne kan anvendes i praksis. Men at forstå dette vedrører allerede mere statistik end at lære at arbejde med software.