Standardafvigelse for ejendommen. Gennemsnitlig lineær og standardafvigelse

For at beregne den simple geometriske middelværdi bruges formlen:

Geometrisk vægtet

For at bestemme det vægtede geometriske middelværdi bruges formlen:

De gennemsnitlige diametre af hjul, rør og de gennemsnitlige sider af kvadrater bestemmes ved hjælp af middelkvadraten.

Root-mean-square værdier bruges til at beregne nogle indikatorer, for eksempel variationskoefficienten, som karakteriserer produktionsrytmen. Her bestemmes standardafvigelsen fra den planlagte produktionsoutput for en bestemt periode ved hjælp af følgende formel:

Disse værdier karakteriserer nøjagtigt ændringen i økonomiske indikatorer sammenlignet med deres basisværdi, taget i dens gennemsnitlige værdi.

Kvadratisk enkel

Den gennemsnitlige kvadratiske rod beregnes ved hjælp af formlen:

Kvadratisk vægtet

Det vægtede middelkvadrat er lig med:

22. Absolutte indikatorer for variation omfatter:

variationsområde

gennemsnitlig lineær afvigelse

spredning

standardafvigelse

Variationsområde (r)

Variationsområde er forskellen mellem maksimum- og minimumværdierne for attributten

Den viser de grænser, inden for hvilke værdien af ​​en karakteristisk ændrer sig i den population, der undersøges.

Arbejdserfaringen for de fem ansøgere i tidligere arbejde er: 2,3,4,7 og 9 år. Løsning: variationsområde = 9 - 2 = 7 år.

For en generaliseret beskrivelse af forskelle i attributværdier beregnes gennemsnitlige variationsindikatorer baseret på at tage højde for afvigelser fra det aritmetiske gennemsnit. Forskellen tages som en afvigelse fra gennemsnittet.

I dette tilfælde, for at undgå, at summen af ​​afvigelser af varianter af en karakteristik fra gennemsnittet bliver til nul (nulegenskab for gennemsnittet), skal man enten ignorere tegnene på afvigelsen, det vil sige tage denne sum modulo , eller kvadrat afvigelsesværdierne

Gennemsnitlig lineær og kvadratisk afvigelse

Gennemsnitlig lineær afvigelse er det aritmetiske gennemsnit af de absolutte afvigelser af individuelle værdier af en karakteristik fra gennemsnittet.

Den gennemsnitlige lineære afvigelse er enkel:

Arbejdserfaringen for de fem ansøgere i tidligere arbejde er: 2,3,4,7 og 9 år.

I vores eksempel: år;

Svar: 2,4 år.

Gennemsnitlig lineær afvigelse vægtet gælder for grupperede data:

På grund af sin konvention bruges den gennemsnitlige lineære afvigelse i praksis relativt sjældent (især til at karakterisere opfyldelsen af ​​kontraktlige forpligtelser vedrørende ensartet levering; i analysen af ​​produktkvalitet under hensyntagen til de teknologiske træk ved produktionen).

Standardafvigelse

Den mest perfekte karakteristik af variation er den gennemsnitlige kvadratafvigelse, som kaldes standarden (eller standardafvigelsen). Standardafvigelse() er lig med kvadratrod fra middelkvadrat af afvigelser af individuelle værdier af karakteristikken til det aritmetiske middelværdi:

Standardafvigelsen er enkel:

Vægtet standardafvigelse anvendes på grupperede data:

Mellem kvadratrodens middelværdi og middellineære afvigelser under normale fordelingsforhold finder følgende forhold sted: ~ 1,25.

Standardafvigelsen, som er det vigtigste absolutte mål for variation, bruges til at bestemme ordinatværdierne for en normalfordelingskurve, i beregninger relateret til organiseringen af ​​prøveobservation og fastlæggelse af nøjagtigheden af ​​prøvekarakteristika samt til vurdering af variationsgrænser for en egenskab i en homogen population.

X i - tilfældige (aktuelle) variable;

gennemsnitsværdien af ​​tilfældige variable for stikprøven beregnes ved hjælp af formlen:

Så, varians er det gennemsnitlige kvadrat af afvigelser . Det vil sige, at gennemsnitsværdien først beregnes og derefter tages forskellen mellem hver original- og gennemsnitsværdi er kvadratisk , tilføjes og divideres derefter med antallet af værdier i den givne population.

Forskellen mellem en individuel værdi og gennemsnittet afspejler målet for afvigelsen. Den er kvadreret, så alle afvigelser udelukkende bliver positive tal og for at undgå gensidig ødelæggelse af positive og negative afvigelser, når de summeres. Så, givet de kvadrerede afvigelser, beregner vi blot det aritmetiske middelværdi.

Løsning magiske ord"spredning" består blot af disse tre ord: middel - kvadratisk - afvigelser.

Gennemsnit standardafvigelse(RMS)

Tager vi kvadratroden af ​​variansen, får vi den såkaldte " standardafvigelse". Der er navne "standardafvigelse" eller "sigma" (fra navnet på det græske bogstav σ .). Formlen for standardafvigelsen er:

Så, dispersion er sigma-kvadret, eller er standardafvigelsen kvadratisk.

Standardafvigelsen karakteriserer naturligvis også målet for dataspredning, men nu (i modsætning til spredning) kan den sammenlignes med de oprindelige data, da de har de samme måleenheder (dette fremgår tydeligt af beregningsformlen). Variationsområdet er forskellen mellem ekstreme værdier. Standardafvigelse, som et mål for usikkerhed, er også involveret i mange statistiske beregninger. Med dens hjælp bestemmes graden af ​​nøjagtighed af forskellige estimater og prognoser. Hvis variationen er meget stor, så vil standardafvigelsen også være stor, og derfor vil prognosen være unøjagtig, hvilket for eksempel kommer til udtryk i meget brede konfidensintervaller.

Derfor, i metoder til statistisk databehandling i ejendomsvurderinger, afhængigt af den krævede nøjagtighed af opgaven, anvendes to- eller tre sigma-reglen.

For at sammenligne to-sigma-reglen og tre-sigma-reglen bruger vi Laplaces formel:

F - F ,

hvor Ф(x) er Laplace-funktionen;



Minimumsværdi

β = maksimumværdi

s = sigmaværdi (standardafvigelse)

a = gennemsnit

I dette tilfælde bruges det privat udsigt Laplaces formel, når grænserne α og β for værdierne af den stokastiske variabel X er lige adskilt fra midten af ​​fordelingen a = M(X) med en bestemt værdi d: a = a-d, b = a+d. Eller (1) Formel (1) bestemmer sandsynligheden for en given afvigelse d af en stokastisk variabel X med en normalfordelingslov fra dens matematiske forventning M(X) = a.

Hvis vi i formel (1) tager sekventielt d = 2s og d = 3s, får vi: (2), (3).

To sigma regel

Det kan være næsten pålideligt (med en konfidenssandsynlighed på 0,954), at alle værdier af en stokastisk variabel X med en normalfordelingslov afviger fra dens matematiske forventning M(X) = a med et beløb, der ikke er større end 2s (to standardafvigelser) ). Tillidssandsynlighed (Pd) er sandsynligheden for hændelser, der konventionelt accepteres som pålidelige (deres sandsynlighed er tæt på 1). Lad os illustrere to-sigma-reglen geometrisk. I fig. Figur 6 viser en Gauss-kurve med fordelingscentret a. Området afgrænset af hele kurven og Ox-aksen er 1 (100%), og arealet mellem abscissen a–2s og a+2s, ifølge two-sigma-reglen, er lig med 0,954 (95,4% af det samlede areal). Arealet af de skraverede områder er 1-0,954 = 0,046 (»5% af det samlede areal). Disse områder kaldes det kritiske område af den stokastiske variabel. Værdier af en tilfældig variabel, der falder ind i det kritiske område, er usandsynlige og i praksis accepteres konventionelt som umulige.

Sandsynligheden for betinget umulige værdier kaldes signifikansniveauet for en tilfældig variabel. Signifikansniveauet er relateret til konfidenssandsynligheden med formlen:

hvor q er signifikansniveauet udtrykt i procent.

Tre sigma regel

Ved løsning af problemer, der kræver større pålidelighed, når konfidenssandsynligheden (Pd) tages lig med 0,997 (mere præcist, 0,9973), i stedet for to-sigma reglen, ifølge formel (3), anvendes reglen. tre sigma



Ifølge tre sigma regel med en konfidenssandsynlighed på 0,9973 vil det kritiske område være området med attributværdier uden for intervallet (a-3s, a+3s). Signifikansniveauet er 0,27 %.

Sandsynligheden for, at den absolutte værdi af afvigelsen overstiger tre gange standardafvigelsen, er med andre ord meget lille, nemlig 0,0027 = 1-0,9973. Det betyder, at kun 0,27 % af tilfældene vil ske. Sådanne hændelser, baseret på princippet om umuligheden af ​​usandsynlige hændelser, kan anses for praktisk taget umulige. Dem. prøveudtagning er meget nøjagtig.

Dette er essensen af ​​tre sigma-reglen:

Hvis en stokastisk variabel er normalfordelt, så overstiger den absolutte værdi af dens afvigelse fra den matematiske forventning ikke tre gange standardafvigelsen (MSD).

I praksis anvendes tre-sigma-reglen som følger: hvis fordelingen af ​​den stokastiske variabel, der undersøges, er ukendt, men betingelsen angivet i ovenstående regel er opfyldt, er der grund til at antage, at den variable, der undersøges, er normalfordelt. ; ellers er den ikke normalfordelt.

Betydningsniveauet tages afhængigt af den tilladte grad af risiko og den aktuelle opgave. Til ejendomsvurdering anvendes normalt en mindre præcis prøve efter to-sigma-reglen.

I denne artikel vil jeg tale om hvordan man finder standardafvigelse. Dette materiale er ekstremt vigtigt for en fuld forståelse af matematik, så en matematikvejleder bør afsætte en separat lektion eller endda flere til at studere det. I denne artikel finder du et link til en detaljeret og forståelig videovejledning, der forklarer, hvad standardafvigelse er, og hvordan du finder den.

Standardafvigelse gør det muligt at evaluere spredningen af ​​værdier opnået som et resultat af måling af en bestemt parameter. Angivet med symbolet (græsk bogstav "sigma").

Formlen til beregning er ret enkel. For at finde standardafvigelsen skal du tage kvadratroden af ​​variansen. Så nu skal du spørge: "Hvad er varians?"

Hvad er varians

Definitionen af ​​varians lyder sådan her. Dispersion er det aritmetiske gennemsnit af de kvadrerede afvigelser af værdier fra middelværdien.

For at finde variansen skal du udføre følgende beregninger sekventielt:

  • Bestem gennemsnittet (simpelt aritmetisk gennemsnit af en række værdier).
  • Træk derefter gennemsnittet fra hver værdi og kvadreret den resulterende forskel (du får kvadratisk forskel).
  • Det næste trin er at beregne det aritmetiske middelværdi af de resulterende kvadratforskelle (Du kan finde ud af, hvorfor kvadraterne er præcis nedenfor).

Lad os se på et eksempel. Lad os sige, at du og dine venner beslutter at måle højden på dine hunde (i millimeter). Som resultat af målingerne fik du følgende højdemål (på manken): 600 mm, 470 mm, 170 mm, 430 mm og 300 mm.

Lad os beregne middelværdien, variansen og standardafvigelsen.

Lad os først finde gennemsnitsværdien. Som du allerede ved, for at gøre dette skal du tilføje alle de målte værdier og dividere med antallet af målinger. Beregningsfremskridt:

Gennemsnitlig mm.

Så gennemsnittet (aritmetisk gennemsnit) er 394 mm.

Nu skal vi bestemme afvigelse af hver hunds højde fra gennemsnittet:

Endelig, at beregne varians, kvadrerer vi hver af de resulterende forskelle og finder derefter det aritmetiske middelværdi af de opnåede resultater:

Dispersion mm 2 .

Således er spredningen 21704 mm 2.

Sådan finder du standardafvigelse

Så hvordan kan vi nu beregne standardafvigelsen ved at kende variansen? Som vi husker, tag kvadratroden af ​​det. Det vil sige, at standardafvigelsen er lig med:

Mm (afrundet til nærmeste hele tal i mm).

Ved at bruge denne metode fandt vi ud af, at nogle hunde (for eksempel rottweilere) er meget store hunde. Men der er også meget små hunde (for eksempel gravhunde, men det skal du ikke fortælle dem).

Det mest interessante er, at standardafvigelsen fører med sig nyttige oplysninger. Nu kan vi vise, hvilke af de opnåede højdemålingsresultater, der ligger inden for det interval, vi får, hvis vi plotter standardafvigelsen fra gennemsnittet (til begge sider af det).

Det vil sige, at vi ved hjælp af standardafvigelsen opnår en "standard" metode, der giver os mulighed for at finde ud af, hvilken af ​​værdierne der er normal (statistisk gennemsnit), og hvilken der er ekstraordinært stor eller omvendt lille.

Hvad er standardafvigelse

Men... alt bliver lidt anderledes, hvis vi analyserer prøve data. I vores eksempel overvejede vi almindelig befolkning. Det vil sige, at vores 5 hunde var de eneste hunde i verden, der interesserede os.

Men hvis dataene er en stikprøve (værdier udvalgt fra en stor population), så skal beregningerne gøres anderledes.

Hvis der er værdier, så:

Alle andre beregninger udføres tilsvarende, herunder bestemmelse af gennemsnittet.

For eksempel, hvis vores fem hunde blot er et udsnit af hundepopulationen (alle hunde på planeten), skal vi dividere med 4, ikke 5, nemlig:

Prøvevarians = mm 2.

I dette tilfælde er standardafvigelsen for prøven lig med mm (afrundet til nærmeste hele tal).

Vi kan sige, at vi har lavet en "korrektion" i det tilfælde, hvor vores værdier kun er et lille udsnit.

Note. Hvorfor præcis kvadratiske forskelle?

Men hvorfor tager vi præcis de kvadratiske forskelle, når vi beregner variansen? Lad os sige, at når du målte en eller anden parameter, modtog du følgende sæt værdier: 4; 4; -4; -4. Hvis vi blot lægger de absolutte afvigelser fra gennemsnittet (forskelle) sammen... negative værdier vil gensidigt annullere med positive:

.

Det viser sig, at denne mulighed er ubrugelig. Så er det måske værd at prøve de absolutte værdier af afvigelserne (det vil sige modulerne af disse værdier)?

Ved første øjekast viser det sig godt (den resulterende værdi kaldes i øvrigt den gennemsnitlige absolutte afvigelse), men ikke i alle tilfælde. Lad os prøve et andet eksempel. Lad målingen resultere i følgende sæt værdier: 7; 1; -6; -2. Så er den gennemsnitlige absolutte afvigelse:

Wow! Igen fik vi et resultat på 4, selvom forskellene har en meget større spredning.

Lad os nu se, hvad der sker, hvis vi kvadrerer forskellene (og derefter tager kvadratroden af ​​deres sum).

For det første eksempel vil det være:

.

For det andet eksempel vil det være:

Nu er det en helt anden sag! Jo større spredningen af ​​forskellene er, jo større standardafvigelse... hvilket er det, vi sigtede efter.

Faktisk i denne metode Den samme idé bruges som ved beregning af afstanden mellem punkter, kun anvendt på en anden måde.

Og fra et matematisk synspunkt giver det at bruge kvadrater og kvadratrødder mere fordel, end vi kunne få fra absolutte afvigelsesværdier, hvilket gør standardafvigelsen gældende for andre matematiske problemer.

Sergey Valerievich fortalte dig, hvordan du finder standardafvigelsen

Forventning og varians

Lad os måle en tilfældig variabel N gange måler vi for eksempel vindhastigheden ti gange og ønsker at finde gennemsnitsværdien. Hvordan er gennemsnitsværdien relateret til fordelingsfunktionen?

Vi kaster terningerne et stort antal gange. Antallet af point, der vises på terningerne ved hvert kast, er en tilfældig variabel og kan tage en hvilken som helst naturlig værdi fra 1 til 6. Det aritmetiske gennemsnit af de tabte point beregnet for alle terningkast er også en tilfældig variabel, men for store N det har tendens til et meget specifikt tal - matematisk forventning M x. I dette tilfælde M x = 3,5.

Hvordan fik du denne værdi? Slip ind N prøver, når du får 1 point, når du får 2 point, og så videre. Så hvornår N→ ∞ antal udfald, hvor et point blev kastet, Tilsvarende, Derfor

Model 4.5. Terninger

Lad os nu antage, at vi kender fordelingsloven for den stokastiske variabel x, det vil sige, at vi ved, at den stokastiske variabel x kan tage værdier x 1 , x 2 , ..., x k med sandsynligheder s 1 , s 2 , ..., p k.

Forventning M x tilfældig variabel x er lig med:

Svar. 2,8.

Den matematiske forventning er ikke altid et rimeligt estimat af en eller anden tilfældig variabel. Så for at estimere gennemsnittet løn Det giver mere mening at bruge begrebet median, det vil sige en sådan værdi, at antallet af personer, der modtager en lavere løn end medianen og en større, er sammenfaldende.

Median en tilfældig variabel er et tal x 1/2 er sådan s (x < x 1/2) = 1/2.

Med andre ord sandsynligheden s 1, at den stokastiske variabel x vil være mindre x 1/2, og sandsynlighed s 2, at den stokastiske variabel x vil være større x 1/2 er identiske og lig med 1/2. Medianen er ikke bestemt entydigt for alle distributioner.

Lad os vende tilbage til den tilfældige variabel x, som kan tage værdier x 1 , x 2 , ..., x k med sandsynligheder s 1 , s 2 , ..., p k.

Varians tilfældig variabel x Den gennemsnitlige værdi af den kvadrerede afvigelse af en tilfældig variabel fra dens matematiske forventning kaldes:

Eksempel 2

Under betingelserne i det foregående eksempel skal du beregne variansen og standardafvigelsen af ​​den tilfældige variabel x.

Svar. 0,16, 0,4.

Model 4.6. At skyde mod et mål

Eksempel 3

Find sandsynlighedsfordelingen af ​​antallet af point opnået ved det første terningkast, medianen, den matematiske forventning, variansen og standardafvigelsen.

Enhver kant er lige så sandsynligt, at den falder ud, så fordelingen vil se sådan ud:

Standardafvigelse Det ses, at værdiens afvigelse fra gennemsnitsværdien er meget stor.

Egenskaber ved matematisk forventning:

  • Den matematiske forventning af summen af ​​uafhængige stokastiske variable er lig med summen af ​​deres matematiske forventninger:

Eksempel 4

Find den matematiske forventning til summen og produktet af point kastet på to terninger.

I eksempel 3 fandt vi det for en terning M (x) = 3,5. Altså for to terninger

Dispersionsegenskaber:

  • Variansen af ​​summen af ​​uafhængige stokastiske variable er lig med summen af ​​varianserne:

Dx + y = Dx + Dy.

Lad for N kaster på terningerne y point. Så

Dette resultat gælder ikke kun for terningkast. I mange tilfælde bestemmer det nøjagtigheden af ​​at måle den matematiske forventning empirisk. Det kan ses med stigende antal målinger N spredningen af ​​værdier omkring gennemsnittet, det vil sige standardafvigelsen, falder proportionalt

Variansen af ​​en tilfældig variabel er relateret til den matematiske forventning af kvadratet af denne tilfældige variabel ved følgende relation:

Lad os finde de matematiske forventninger fra begge sider af denne lighed. Per definition,

Den matematiske forventning til højre side af ligheden er ifølge egenskaben ved matematiske forventninger lig med

Standardafvigelse

Standardafvigelse lig med kvadratroden af ​​variansen:
Ved bestemmelse af standardafvigelsen for et tilstrækkeligt stort volumen af ​​den population, der undersøges (n > 30), anvendes følgende formler:

Relaterede oplysninger.


Spredning. Standardafvigelse

Spredning er det aritmetiske gennemsnit af de kvadrerede afvigelser af hver attributværdi fra det samlede gennemsnit. Afhængigt af kildedataene kan variansen være uvægtet (simpel) eller vægtet.

Variansen beregnes ved hjælp af følgende formler:

· for ugrupperede data

· for grupperede data

Fremgangsmåden til beregning af den vægtede varians:

1. Bestem det aritmetiske vægtede gennemsnit

2. Variantens afvigelser fra gennemsnittet bestemmes

3. Kvadrat afvigelsen af ​​hver mulighed fra gennemsnittet

4. gange kvadraterne af afvigelser med vægte (frekvenser)

5. opsummere de resulterende produkter

6. den resulterende mængde divideres med summen af ​​skalaerne

Formlen til bestemmelse af varians kan konverteres til følgende formel:

- enkelt

Proceduren til beregning af varians er enkel:

1. Bestem det aritmetiske middelværdi

2. kvadrat det aritmetiske gennemsnit

3. firkant hver mulighed i rækken

4. find muligheden for summen af ​​kvadrater

5. divider summen af ​​kvadrater med deres antal, dvs. bestemme middelkvadrat

6. Bestem forskellen mellem karakteristikkens middelkvadrat og middelværdiens kvadrat

Formlen til bestemmelse af den vægtede varians kan også konverteres til følgende formel:

dem. variansen er lig med forskellen mellem gennemsnittet af de kvadrerede værdier af attributten og kvadratet af det aritmetiske middelværdi. Ved brug af den transformerede formel elimineres den yderligere procedure til beregning af afvigelser af individuelle værdier af en karakteristik fra x, og fejlen i beregningen forbundet med afrunding af afvigelser elimineres

Dispersion har en række egenskaber, hvoraf nogle gør det lettere at beregne:

1) variansen af ​​en konstant værdi er nul;

2) hvis alle varianter af attributværdier reduceres med det samme tal, vil variansen ikke falde;

3) hvis alle varianter af attributværdier reduceres med det samme antal gange (fold), så vil variansen falde med en faktor

Standardafvigelse S- repræsenterer kvadratroden af ​​variansen:

· for ikke-grupperede data:

;

· for variationsserien:

Variationsområdet, lineært middelværdi og standardafvigelse er navngivne mængder. De har samme måleenheder som de individuelle karakteristiske værdier.

Varians og standardafvigelse er de mest anvendte variationsmål. Dette forklares med det faktum, at de indgår i de fleste sandsynlighedsteoremers teoremer, som tjener som grundlaget for matematisk statistik. Derudover kan variansen dekomponeres i dens komponentelementer, så man kan evaluere indflydelsen af ​​forskellige faktorer, der bestemmer variationen af ​​en egenskab.

Beregningen af ​​variationsindikatorer for banker grupperet efter overskudsgrad er vist i tabellen.

Fortjenestebeløb, millioner rubler. Antal banker beregnede indikatorer
3,7 - 4,6 (-) 4,15 8,30 -1,935 3,870 7,489
4,6 - 5,5 5,05 20,20 - 1,035 4,140 4,285
5,5 - 6,4 5,95 35,70 - 0,135 0,810 0,109
6,4 - 7,3 6,85 34,25 +0,765 3,825 2,926
7,3 - 8,2 7,75 23,25 +1,665 4,995 8,317
Total: 121,70 17,640 23,126

Den gennemsnitlige lineære og standardafvigelse viser, hvor meget værdien af ​​en karakteristik svinger i gennemsnit blandt enheder og populationen under undersøgelse. Så i dette tilfælde er den gennemsnitlige udsving i profit: ifølge den gennemsnitlige lineære afvigelse, 0,882 millioner rubler; ved standardafvigelse - 1,075 millioner rubler. Standardafvigelsen er altid større end den gennemsnitlige lineære afvigelse. Hvis fordelingen af ​​karakteristikken er tæt på normalen, så er der en sammenhæng mellem S og d: S=1,25d, eller d=0,8S. Standardafvigelsen viser, hvordan hovedparten af ​​befolkningsenhederne er placeret i forhold til det aritmetiske gennemsnit. Uanset fordelingens form falder 75 værdier af attributten ind i intervallet x 2S, og mindst 89 af alle værdier falder ind i intervallet x 3S (P.L. Chebyshevs teorem).