Gjennomgang av metoder for statistisk dataanalyse. Statistiske metoder

Aktiviteten til mennesker innebærer i mange tilfeller å jobbe med data, og det kan i sin tur bety ikke bare å operere med dem, men også studere, behandle og analysere dem. For eksempel når du trenger å kondensere informasjon, finne en slags relasjon eller definere strukturer. Og bare for analyser i dette tilfellet er det veldig praktisk å bruke ikke bare, men også å bruke statistiske metoder.

Et trekk ved metodene for statistisk analyse er deres kompleksitet, på grunn av mangfoldet av former for statistiske mønstre, så vel som kompleksiteten i prosessen med statistisk forskning. Vi ønsker imidlertid å snakke om akkurat slike metoder som alle kan bruke, og gjøre det effektivt og med glede.

Statistisk forskning kan utføres ved hjelp av følgende metoder:

  • Statistisk observasjon;
  • Oppsummering og gruppering av statistisk observasjonsmateriale;
  • Absolutte og relative statistiske verdier;
  • Variasjon serien;
  • Prøve;
  • Korrelasjons- og regresjonsanalyse;
  • Rader med dynamikk.

Statistisk observasjon

Statistisk observasjon er en planlagt, organisert og i de fleste tilfeller systematisk innsamling av informasjon, hovedsakelig rettet mot fenomener sosialt liv. Denne metoden implementeres gjennom registrering av forhåndsbestemte mest slående funksjoner, hvis formål er å senere oppnå egenskapene til de studerte fenomenene.

Statistisk observasjon må utføres under hensyntagen til noen viktige krav:

  • Den skal dekke de studerte fenomenene fullt ut;
  • Dataene som mottas må være nøyaktige og pålitelige;
  • De resulterende dataene bør være enhetlige og lett sammenlignbare.

Statistisk observasjon kan også ha to former:

  • Rapportering er en form for statistisk observasjon der informasjon mottas av spesifikke statistiske enheter i organisasjoner, institusjoner eller virksomheter. I dette tilfellet blir dataene lagt inn i spesialrapporter.
  • Spesielt organisert observasjon - observasjon, som er organisert for et bestemt formål, for å innhente informasjon som ikke er tilgjengelig i rapportene, eller for å klargjøre og fastslå påliteligheten til informasjonen i rapportene. Dette skjemaet inkluderer undersøkelser (for eksempel meningsmålinger), folketellinger osv.

I tillegg kan en statistisk observasjon kategoriseres på grunnlag av to trekk: enten på grunnlag av arten av dataregistreringen eller på grunnlag av dekningen av observasjonsenhetene. Den første kategorien omfatter intervjuer, dokumentasjon og direkte observasjon, og den andre kategorien omfatter kontinuerlig og ikke-kontinuerlig observasjon, d.v.s. selektiv.

For å innhente data ved hjelp av statistisk observasjon kan man bruke metoder som spørreskjemaer, korrespondentaktiviteter, egenberegning (når de observerte for eksempel selv fyller ut relevante dokumenter), ekspedisjoner og rapportering.

Oppsummering og gruppering av statistisk observasjonsmateriale

Når vi snakker om den andre metoden, bør det først og fremst sies om sammendraget. Et sammendrag er en prosess for å behandle visse enkeltfakta som utgjør det totale settet med data som samles inn under observasjon. Hvis sammendraget utføres riktig, kan en enorm mengde enkeltdata om individuelle observasjonsobjekter bli til et helt kompleks av statistiske tabeller og resultater. Denne studien bidrar også til bestemmelsen vanlige trekk og regelmessigheter av de studerte fenomenene.

Gitt nøyaktigheten og dybden av studien, kan en enkel og kompleks oppsummering skilles ut, men hvilken som helst av dem bør være basert på spesifikke stadier:

  • Et grupperingsattributt er valgt;
  • Rekkefølgen for dannelse av grupper bestemmes;
  • Et system med indikatorer er under utvikling for å karakterisere gruppen og objektet eller fenomenet som helhet;
  • Tabelloppsett er under utvikling hvor oppsummeringsresultatene vil bli presentert.

Det er viktig å merke seg at det finnes ulike former for sammendrag:

  • Sentralisert sammendrag, som krever overføring av det mottatte primærmaterialet til et høyere senter for videre behandling;
  • Desentralisert oppsummering, hvor studiet av data skjer på flere stadier i stigende rekkefølge.

Sammendraget kan utføres ved hjelp av spesialutstyr, for eksempel ved hjelp av dataprogramvare eller manuelt.

Når det gjelder grupperingen, kjennetegnes denne prosessen ved inndeling av de studerte dataene i grupper i henhold til funksjoner. Funksjonene til oppgavene satt av statistisk analyse påvirker hva slags gruppering vil være: typologisk, strukturell eller analytisk. Det er derfor, for oppsummeringer og grupperinger, tyr de enten til tjenester fra høyt spesialiserte spesialister, eller bruker dem.

Absolutt og relativ statistikk

Absolutte verdier regnes som den aller første formen for presentasjon av statistiske data. Med dens hjelp er det mulig å gi fenomener dimensjonale egenskaper, for eksempel i tid, i lengde, i volum, i areal, i masse, etc.

Hvis du vil vite om individuelle absolutte statistiske verdier, kan du ty til måling, evaluering, telling eller vekting. Og hvis du trenger å få totalvolumindikatorer, bør du bruke en oppsummering og gruppering. Det må tas i betraktning at absolutte statistiske verdier er forskjellige i nærvær av måleenheter. Slike enheter inkluderer kostnad, arbeid og naturlig.

Og de relative verdiene uttrykker de kvantitative forholdstallene knyttet til fenomenene i det sosiale livet. For å få dem er noen mengder alltid delt på andre. Indikatoren som sammenlignes (dette er nevneren) kalles sammenligningsgrunnlaget, og indikatoren som sammenlignes (dette er telleren) kalles rapporteringsverdien.

Relative verdier kan være forskjellige, avhengig av innholdet. For eksempel er det størrelser på sammenligning, størrelser på utviklingsnivå, størrelser på intensiteten til en bestemt prosess, størrelser på koordinering, struktur, dynamikk og så videre. og så videre.

For å studere et sett med differensierende funksjoner, bruker statistisk analyse gjennomsnittsverdier - generalisering kvalitetsegenskaper et sett med homogene fenomener i henhold til et eller annet differensierende trekk.

En ekstremt viktig egenskap ved gjennomsnitt er at de snakker om verdiene til spesifikke funksjoner i hele komplekset som et enkelt tall. Til tross for at individuelle enheter kan ha en kvantitativ forskjell, uttrykker gjennomsnittsverdiene de generelle verdiene som er iboende i alle enhetene i komplekset som studeres. Det viser seg at ved hjelp av egenskapene til en ting, kan du få egenskapene til helheten.

Det bør huskes at en av de mest viktige forhold bruk av gjennomsnitt dersom det gjennomføres statistisk analyse sosiale fenomener, homogeniteten til komplekset deres vurderes, som det er nødvendig å finne ut gjennomsnittsverdien for. Og formelen for å bestemme den vil avhenge av nøyaktig hvordan de første dataene for beregning av gjennomsnittsverdien vil bli presentert.

Variasjonsserien

I noen tilfeller kan data om gjennomsnittene av visse studerte mengder ikke være nok til å behandle, evaluere og dybdeanalyse av et fenomen eller en prosess. Da bør man ta hensyn til variasjonen eller spredningen av indikatorer for enkeltenheter, som også er en viktig egenskap ved populasjonen som studeres.

Mange faktorer kan påvirke de individuelle verdiene av mengder, og fenomenene eller prosessene som studeres kan være svært forskjellige, dvs. å ha variasjon (denne variasjonen er serien av variasjoner), hvis årsaker bør søkes i essensen av det som studeres.

De ovennevnte absolutte verdiene er direkte avhengige av måleenhetene for funksjoner, noe som betyr at de gjør prosessen med å studere, evaluere og sammenligne to eller flere variasjonsserier vanskeligere. Og relative indikatorer må beregnes som et forhold mellom absolutte og gjennomsnittlige indikatorer.

Prøve

Betydningen av prøvetakingsmetoden (eller, enklere, prøvetaking) er at egenskapene til en del bestemmer de numeriske egenskapene til helheten (dette kalles den generelle populasjonen). Den viktigste selektive metoden er en intern forbindelse som forener deler og helheten, entall og generell.

Prøvetakingsmetoden har en rekke betydelige fordeler fremfor de andre, fordi På grunn av reduksjonen i antall observasjoner, tillater det å redusere mengden arbeid, brukte midler og innsats, samt lykkes med å skaffe data om slike prosesser og fenomener der det enten er upraktisk eller rett og slett umulig å studere dem fullstendig.

Korrespondansen mellom egenskapene til prøven og egenskapene til fenomenet eller prosessen som studeres vil avhenge av et sett med forhold, og først og fremst av hvordan prøvetakingsmetoden skal implementeres i praksis. Dette kan enten være systematisk utvelgelse, etter utarbeidet opplegg, eller uplanlagt, når utvalget er tatt fra den generelle populasjonen.

Men i alle tilfeller må prøvetakingsmetoden være typisk og oppfylle kriteriene om objektivitet. Disse kravene må alltid oppfylles, fordi. det er på dem at samsvaret mellom egenskapene til metoden og egenskapene til det som utsettes for statistisk analyse vil avhenge.

Før du behandler prøvematerialet, er det derfor nødvendig å sjekke det nøye, og dermed bli kvitt alt unødvendig og sekundært. Samtidig, når du kompilerer en prøve, er det viktig å omgå enhver amatørprestasjon. Dette betyr at du ikke i noe tilfelle skal velge bare de alternativene som virker typiske, og forkaste alle andre.

Et effektivt utvalg av høy kvalitet må trekkes objektivt, d.v.s. den må produseres på en slik måte at enhver subjektiv påvirkning og forutinntatte motiver er utelukket. Og for at denne tilstanden skal bli riktig observert, er det nødvendig å ty til prinsippet om randomisering, eller, enklere, til prinsippet om tilfeldig utvalg av alternativer fra hele befolkningen.

Det presenterte prinsippet tjener som grunnlag for teorien om prøvetakingsmetoden, og det må følges når det er nødvendig for å skape en effektiv prøvetakingspopulasjon, og tilfeller av planlagt seleksjon er ikke noe unntak her.

Korrelasjons- og regresjonsanalyse

Korrelasjonsanalyse og regresjonsanalyse er to svært effektive metoder for å analysere store mengder data for å utforske det mulige forholdet mellom to eller flere indikatorer.

Ved korrelasjonsanalyse er oppgavene:

  • Mål tettheten til den eksisterende forbindelsen av differensierende funksjoner;
  • Bestem ukjente årsakssammenhenger;
  • Vurder faktorene som har størst innvirkning på den endelige egenskapen.

Og når det gjelder regresjonsanalyse, er oppgavene som følger:

  • Bestem kommunikasjonsformen;
  • Etablere graden av påvirkning av uavhengige indikatorer på den avhengige;
  • Bestem de beregnede verdiene til den avhengige indikatoren.

For å løse alle de ovennevnte problemene er det nesten alltid nødvendig å bruke både korrelasjons- og regresjonsanalyse i kombinasjon.

Serie av dynamikk

Ved å bruke denne metoden for statistisk analyse er det veldig praktisk å bestemme intensiteten eller hastigheten som fenomener utvikler seg med, finne utviklingstrenden, skille ut fluktuasjoner, sammenligne utviklingsdynamikken, finne forholdet mellom fenomener som utvikler seg over tid.

En serie av dynamikk er en serie der statistiske indikatorer er sekvensielt lokalisert i tid, endringer som karakteriserer utviklingsprosessen til objektet eller fenomenet som studeres.

Serien av dynamikk inkluderer to komponenter:

  • Perioden eller tidspunktet knyttet til tilgjengelige data;
  • Nivå eller statistikk.

Sammen representerer disse komponentene to ledd i en serie av dynamikk, der det første leddet (tidsperiode) er betegnet med bokstaven "t", og det andre (nivå) - med bokstaven "y".

Basert på varigheten av tidsintervallene som nivåene er sammenkoblet med, kan serien av dynamikk være momentant og intervall. Intervallserier lar deg legge til nivåer for å få den totale verdien av perioder som følger etter hverandre, men i øyeblikksserier er det ingen slik mulighet, men dette er ikke påkrevd der.

Tidsserier eksisterer også med like og forskjellige intervaller. Essensen av intervaller i øyeblikk og intervallserier er alltid forskjellig. I det første tilfellet er intervallet tidsintervallet mellom datoene som dataene for analyse er knyttet til (det er praktisk å bruke en slik serie, for eksempel for å bestemme antall handlinger per måned, år osv.). Og i det andre tilfellet - tidsperioden som de aggregerte dataene er knyttet til (en slik serie kan brukes til å bestemme kvaliteten på de samme handlingene for en måned, et år, etc.). Intervaller kan være like eller forskjellige, uavhengig av serietype.

Naturligvis, for å lære hvordan du bruker hver av metodene for statistisk analyse riktig, er det ikke nok bare å vite om dem, for faktisk er statistikk en hel vitenskap som også krever visse ferdigheter og evner. Men for å gjøre det lettere kan og bør du trene opp tenkningen og.

Ellers er forskning, evaluering, bearbeiding og analyse av informasjon svært interessante prosesser. Og selv i tilfeller der det ikke fører til noe spesifikt resultat, kan du under studiet lære mange interessante ting. Statistisk analyse har funnet veien til et stort antall områder av menneskelig aktivitet, og du kan bruke den i skole, arbeid, næringsliv og andre områder, inkludert barns utvikling og selvopplæring.

statistikk"biostatistikk".

1. nominell;
2. ordinær;
3. intervall;

prøver

representant

prøveramme enkelt tilfeldig utvalg intervallprøvetaking

stratifisert prøvetaking

klynge Og prøvetakingskvote

nullhypotesen

alternativ hypotese makt

selvtillitsnivå."


Tittel: Grunnleggende om statistisk dataanalyse
Detaljert beskrivelse:

Etter fullføring av vitenskapelig forskning, grunnleggende eller eksperimentell, utføres en statistisk analyse av dataene som er oppnådd. For at den statistiske analysen skal bli vellykket gjennomført og for å løse oppgavene, må studien planlegges riktig. Derfor, uten å forstå det grunnleggende om statistikk, er det umulig å planlegge og bearbeide resultatene. vitenskapelig eksperiment. Medisinsk utdanning gir imidlertid ikke bare kunnskap om statistikk, men til og med grunnleggende om høyere matematikk. Derfor kan man veldig ofte komme over oppfatningen om at bare en statistiker bør befatte seg med statistisk prosessering i biomedisinsk forskning, og en medisinsk forsker bør fokusere på medisinske problemstillinger i sitt vitenskapelige arbeid. En slik arbeidsdeling, som innebærer bistand til dataanalyse, er fullt berettiget. Imidlertid er en forståelse av prinsippene for statistikk nødvendig i det minste for å unngå feil å sette oppgaven for en spesialist, kommunikasjon med hvem før starten av studien er like viktig som på stadiet av databehandling.

Før du snakker om det grunnleggende om statistisk analyse, er det nødvendig å avklare betydningen av begrepet " statistikk". Det er mange definisjoner, men den mest komplette og konsise, etter vår mening, er definisjonen av statistikk som "vitenskapen om å samle, presentere og analysere data". På sin side kalles bruken av statistikk i applikasjoner til den levende verden "biometri" eller " biostatistikk".

Det skal bemerkes at svært ofte reduseres statistikk bare til behandling av eksperimentelle data, uten å ta hensyn til stadiet for å skaffe dem. Imidlertid er statistisk kunnskap nødvendig allerede under planleggingen av eksperimentet, slik at indikatorene som er oppnådd under det kan gi forskeren pålitelig informasjon. Derfor kan vi si at den statistiske analysen av resultatene av eksperimentet begynner allerede før starten av studien.

Allerede på stadiet av å utvikle en plan, bør forskeren tydelig forstå hvilken type variabler som vil være i arbeidet hans. Alle variabler kan deles inn i to klasser: kvalitativ og kvantitativ. Hvilket område en variabel kan ta avhenger av måleskalaen. Det er fire hovedskalaer:

1. nominell;
2. ordinær;
3. intervall;
4. rasjonell (skala av relasjoner).

I den nominelle skalaen (skalaen av "navn") er det bare konvensjonerå beskrive noen klasser av objekter, for eksempel "kjønn" eller "pasientens yrke". Den nominelle skalaen innebærer at variabelen vil ta verdier, kvantitative sammenhenger mellom disse ikke kan bestemmes. Dermed er det umulig å etablere et matematisk forhold mellom det mannlige og kvinnelige kjønn. Konvensjonelle numeriske betegnelser (kvinner - 0, menn - 1 eller omvendt) er gitt helt vilkårlig og er kun ment for databehandling. Den nominelle skalaen er kvalitativ i sin reneste form, separate kategorier denne skalaen uttrykkes ved frekvenser (antall eller andel observasjoner, prosenter).

Ordinalskalaen sørger for at individuelle kategorier i den kan ordnes i stigende eller synkende rekkefølge. I medisinsk statistikk er et klassisk eksempel på en ordinalskala gradueringen av alvorlighetsgraden av en sykdom. I dette tilfellet kan vi bygge alvorlighetsgraden i stigende rekkefølge, men har fortsatt ikke muligheten til å spesifisere kvantitative forhold, det vil si at avstanden mellom verdiene målt i ordensskalaen er ukjent eller spiller ingen rolle. Det er lett å fastslå rekkefølgen på verdiene til variabelen "alvorlighet", men det er umulig å bestemme hvor mange ganger en alvorlig tilstand skiller seg fra en moderat tilstand.

Ordinalskalaen refererer til semi-kvantitative datatyper, og dens graderinger kan beskrives både ved frekvenser (som i en kvalitativ skala) og ved mål. sentrale verdier som vi vil fokusere på nedenfor.

Intervall og rasjonelle skalaer er rene kvantitative datatyper. I intervallskalaen kan vi allerede bestemme hvor mye en verdi av en variabel skiller seg fra en annen. En økning i kroppstemperaturen med 1 grad Celsius betyr altså alltid en økning i varmen som frigjøres med et fast antall enheter. Imidlertid har intervallskalaen både positive og negative verdier (det er ingen absolutt null). I denne forbindelse er det umulig å si at 20 grader Celsius er dobbelt så varmt som 10. Vi kan bare slå fast at 20 grader er like mye varmere enn 10 som 30 er varmere enn 20.

Den rasjonelle skalaen (forholdsskalaen) har ett referansepunkt og kun positive verdier. I medisin er de fleste rasjonelle skalaer konsentrasjoner. For eksempel er et glukosenivå på 10 mmol/L det dobbelte av konsentrasjonen sammenlignet med 5 mmol/L. For temperatur er den rasjonelle skalaen Kelvin-skalaen, hvor det er absolutt null (fravær av varme).

Det bør legges til at enhver kvantitativ variabel kan være kontinuerlig, som når det gjelder måling av kroppstemperatur (dette er en kontinuerlig intervallskala), eller diskret, hvis vi teller antall blodceller eller avkom fra laboratoriedyr (dette er en diskret rasjonell skala).

Disse forskjellene er av avgjørende betydning for valg av metoder for statistisk analyse av forsøksresultater. Så for nominelle data er kjikvadrattesten anvendelig, og den velkjente Studenttesten krever at variabelen (intervall eller rasjonell) er kontinuerlig.

Etter at spørsmålet om typen av variabelen er løst, er det nødvendig å begynne å danne prøver. Et utvalg er en liten gruppe gjenstander av en bestemt klasse (i medisin, en populasjon). For å få helt nøyaktige data er det nødvendig å studere alle objekter i en gitt klasse, men av praktiske (ofte økonomiske) årsaker studeres bare en del av befolkningen, som kalles utvalget. I fremtiden lar statistisk analyse forskeren utvide mønstrene som er oppnådd til hele befolkningen med en viss grad av nøyaktighet. Faktisk er all biomedisinsk statistikk rettet mot å få mest mulig nøyaktige resultater fra minst mulig antall observasjoner, for når man forsker på mennesker, er også et etisk spørsmål viktig. Vi har ikke råd til å sette flere pasienter i fare enn nødvendig.

Opprettelsen av en prøve reguleres deretter obligatoriske krav, brudd på dette kan føre til feilaktige konklusjoner fra resultatene av studien. For det første er prøvestørrelsen viktig. Nøyaktigheten av å estimere de studerte parameterne avhenger av prøvestørrelsen. Ordet "nøyaktighet" bør tas i betraktning her. Hvordan flere størrelser av de studerte gruppene, desto mer nøyaktige (men ikke nødvendigvis riktige) resultatene får forskeren. For at resultatene fra prøvetakingsstudier skal kunne overføres til hele populasjonen som helhet, må utvalget være representant. Representativiteten til utvalget tilsier at det gjenspeiler alle de vesentlige egenskapene til populasjonen. Med andre ord, i de undersøkte gruppene finnes personer av ulikt kjønn, alder, yrke, sosial status osv. med samme hyppighet som i hele befolkningen.

Men før man starter utvelgelsen av studiegruppen, bør man bestemme seg for behovet for å studere en bestemt populasjon. Et eksempel på en populasjon kan være alle pasienter med en viss nosologi eller personer i yrkesaktiv alder osv. Resultatene som er oppnådd for en populasjon av unge i militær alder kan derfor vanskelig ekstrapoleres til postmenopausale kvinner. Settet med egenskaper som studiegruppen vil ha, bestemmer «generaliserbarheten» av studiedataene.

Prøver kan genereres på forskjellige måter. Det enkleste er å velge med en tilfeldig tallgenerator. nødvendig beløp gjenstander fra en befolkning eller prøveramme(prøveramme). Denne metoden kalles enkelt tilfeldig utvalg". Hvis vi tilfeldig velger et utgangspunkt i utvalgsrammen, og deretter tar hvert andre, femte eller tiende objekt (avhengig av hvilke gruppestørrelser som kreves i studien), får vi intervallprøvetaking. Intervallsampling er ikke tilfeldig, siden muligheten for periodiske repetisjoner av data innenfor samplingsrammen aldri er utelukket.

Det er mulig å lage den såkalte " stratifisert prøvetaking”, som forutsetter at befolkningen består av flere ulike grupper og denne strukturen bør reproduseres i forsøksgruppen. For eksempel, hvis forholdet mellom menn og kvinner i en populasjon er 30:70, bør forholdet i et stratifisert utvalg være det samme. Med denne tilnærmingen er det avgjørende å ikke balansere prøven overdrevent, det vil si å unngå homogeniteten til egenskapene, ellers kan forskeren gå glipp av sjansen til å finne forskjeller eller sammenhenger i dataene.

I tillegg til de beskrevne metodene for å danne grupper, er det også klynge Og prøvetakingskvote. Den første brukes når det er vanskelig å få fullstendig informasjon om prøverammen på grunn av størrelsen. Da dannes utvalget fra flere grupper inkludert i populasjonen. Den andre - kvoten - ligner på et stratifisert utvalg, men her samsvarer ikke fordelingen av objekter med den i populasjonen.

Tilbake til utvalgsstørrelsen skal det sies at den er nært knyttet til sannsynligheten for statistiske feil av den første og andre typen. Statistiske feil kan skyldes at studien ikke studerer hele populasjonen, men en del av den. Type I feil er det feilaktige avviket nullhypotesen. På sin side er nullhypotesen antakelsen om at alle de studerte gruppene er hentet fra den samme generelle befolkningen, noe som betyr at forskjellene eller sammenhengene mellom dem er tilfeldige. Hvis vi trekker en analogi med diagnostiske tester, er en type I-feil et falskt positivt resultat.

Type II feil er et feil avvik alternativ hypotese, hvis betydning ligger i det faktum at forskjellene eller relasjonene mellom grupper ikke skyldes en tilfeldig tilfeldighet, men påvirkningen av de studerte faktorene. Og igjen analogien med diagnostikk: en feil av den andre typen er et falsk negativt resultat. Relatert til denne feilen er forestillingen makt, som forteller om hvor effektiv en bestemt statistisk metode er under gitte forhold, om dens sensitivitet. Effekten beregnes med formelen: 1-β, hvor β er sannsynligheten for en type II feil. Denne indikatoren avhenger hovedsakelig av prøvestørrelsen. Jo større gruppestørrelser, desto lavere er sannsynligheten for en type II-feil og jo høyere er kraften til statistiske tester. Denne avhengigheten er minst kvadratisk, det vil si at halvering av prøvestørrelsen vil føre til et kraftfall minst fire ganger. Minste tillatte effekt anses å være 80 %, og maksimalt tillatt feilnivå av den første typen er 5 %. Det bør imidlertid alltid huskes at disse grensene er vilkårlige og kan endres avhengig av studiens art og mål. Som regel anerkjennes en vilkårlig maktendring av det vitenskapelige samfunnet, men i det overveldende flertallet av tilfellene kan feilnivået av den første typen ikke overstige 5%.

Alt det ovennevnte er direkte relatert til forskningsplanleggingsstadiet. Imidlertid refererer mange forskere feilaktig til statistisk databehandling bare som en slags manipulasjon utført etter fullføringen av hoveddelen av arbeidet. Ofte, etter slutten av et uplanlagt eksperiment, er det et uimotståelig ønske om å bestille analysen av statistiske data på siden. Men det vil være svært vanskelig selv for en statistiker å trekke ut resultatet som forskeren forventer fra "søppelhaugen". Derfor, med utilstrekkelig kunnskap om biostatistikk, er det nødvendig å søke hjelp til statistisk analyse allerede før starten av eksperimentet.

Når det gjelder selve analyseprosedyren, bør det påpekes to hovedtyper av statistiske teknikker: beskrivende og evidensbasert (analytisk). Beskrivende teknikker inkluderer teknikker for å presentere data på en kompakt og lettfattelig måte. Disse inkluderer tabeller, grafer, frekvenser (absolutt og relativ), mål på sentral tendens (gjennomsnitt, median, modus) og mål for dataspredning (varians, standardavvik, interkvartilintervall, etc.). Med andre ord karakteriserer deskriptive metoder de studerte prøvene.

Den mest populære (men ofte misvisende) måten å beskrive tilgjengelige kvantitative data på er å definere følgende indikatorer:

  • antall observasjoner i utvalget eller dets størrelse;
  • gjennomsnittsverdi (aritmetisk gjennomsnitt);
  • standardavvik er et mål på hvor mye verdiene til variabler endres.

Det er viktig å huske at det aritmetiske gjennomsnittet og standardavviket er mål på sentral tendens og spredning i et ganske lite antall utvalg. I slike prøver avviker verdiene til de fleste objekter fra gjennomsnittet med lik sannsynlighet, og deres fordeling danner en symmetrisk "klokke" (Gaussisk eller Gauss-Laplace-kurve). En slik fordeling kalles også "normal", men i praksis av et medisinsk eksperiment forekommer den bare i 30% av tilfellene. Hvis verdiene til variabelen er fordelt asymmetrisk rundt sentrum, beskrives gruppene best ved å bruke medianen og kvantiler (persentiler, kvartiler, desiler).

Etter å ha fullført beskrivelsen av gruppene, er det nødvendig å svare på spørsmålet om deres forhold og muligheten for å generalisere resultatene av studien til hele befolkningen. Til dette brukes evidensbaserte metoder for biostatistikk. Det er om dem forskerne først og fremst husker når det kommer til statistisk databehandling. Vanligvis kalles dette stadiet av arbeidet "testing av statistiske hypoteser".

Hypotesetestingsoppgaver kan deles inn i to store grupper. Den første gruppen svarer på spørsmålet om det er forskjeller mellom gruppene i nivået på en eller annen indikator, for eksempel forskjeller i nivået av levertransaminaser hos pasienter med hepatitt og friske mennesker. Den andre gruppen lar deg bevise eksistensen av et forhold mellom to eller flere indikatorer, for eksempel funksjonen til leveren og immunsystemet.

Rent praktisk kan oppgaver fra den første gruppen deles inn i to undertyper:

  • sammenligning av indikatoren i bare to grupper (friske og syke, menn og kvinner);
  • sammenligning av tre eller flere grupper (studie av ulike doser av stoffet).

Det bør tas i betraktning at statistiske metoder avviker betydelig for kvalitative og kvantitative data.

I en situasjon der variabelen som studeres er kvalitativ og kun to grupper sammenlignes, kan kjikvadrattesten brukes. Dette er et ganske kraftig og allment kjent kriterium, men det er ikke effektivt nok hvis antallet observasjoner er lite. For å løse dette problemet finnes det flere metoder, som Yates-korreksjon for kontinuitet og Fishers eksakte metode.

Hvis variabelen som studeres er kvantitativ, kan en av to typer statistiske tester brukes. Kriteriene av den første typen er basert på spesifikk type fordeling av den generelle befolkningen og operere med parameterne til denne befolkningen. Slike kriterier kalles "parametriske", og de er vanligvis basert på antakelsen om en normalfordeling av verdier. Ikke-parametriske tester er ikke basert på antakelsen om typen fordeling av den generelle befolkningen og bruker ikke parameterne. Noen ganger kalles slike kriterier «distribusjonsfrie tester». Til en viss grad er dette feil, siden enhver ikke-parametrisk test forutsetter at fordelingene i alle sammenlignede grupper vil være like, ellers kan falske positive resultater oppnås.

Det er to parametriske tester brukt på data hentet fra en normalfordelt populasjon: Students t-test for å sammenligne to grupper og Fishers F-test for å teste for varianslikhet (aka ANOVA). Det er mye mer ikke-parametriske kriterier. Ulike tester skiller seg fra hverandre i forutsetningene de er basert på, i kompleksiteten til beregningene, i statistisk styrke osv. Men Wilcoxon-testen (for beslektede grupper) og Mann-Whitney-testen, også kjent som testen Wilcoxon for uavhengige prøver. Disse testene er praktiske ved at de ikke krever antakelser om arten av datadistribusjonen. Men hvis det viser seg at prøvene er tatt fra en normalfordelt generell populasjon, vil ikke deres statistiske styrke avvike vesentlig fra den for studentens prøve.

En fullstendig beskrivelse av statistiske metoder kan finnes i den spesialiserte litteraturen, men nøkkelpoenget er at hver statistisk test krever et sett med regler (forutsetninger) og betingelser for bruken, og mekanisk oppregning av flere metoder for å finne det "ønskede" Resultatet er absolutt uakseptabelt fra et vitenskapelig synspunkt. . I denne forstand ligner statistiske tester på medikamenter - hver har indikasjoner og kontraindikasjoner, bivirkninger og sannsynligheten for ineffektivitet. Og like farlig er ukontrollert bruk av statistiske tester, fordi hypoteser og konklusjoner er basert på dem.

For en mer fullstendig forståelse av spørsmålet om nøyaktigheten av statistisk analyse, er det nødvendig å definere og analysere konseptet " selvtillitsnivå." Konfidenssannsynlighet er en verdi tatt som en grense mellom sannsynlige og usannsynlige hendelser. Tradisjonelt er det betegnet med bokstaven "p". For mange forskere er det eneste formålet med å utføre statistisk analyse å beregne den ettertraktede p-verdien, som ser ut til å sette kommaer i det velkjente uttrykket «henrettelse kan ikke benådes». Maksimalt tillatt konfidensnivå er 0,05. Det bør huskes at konfidensnivået ikke er sannsynligheten for en hendelse, men et spørsmål om tillit. Ved å eksponere konfidenssannsynligheten før analysen starter, bestemmer vi dermed graden av tillit til resultatene av vår forskning. Og, som du vet, påvirker overdreven godtroenhet og overdreven mistenksomhet resultatene av ethvert arbeid like negativt.

Konfidensnivået indikerer maksimal sannsynlighet for en type I-feil som forskeren anser som akseptabel. Å redusere tillitsnivået, med andre ord, skjerpe betingelsene for å teste hypoteser, øker sannsynligheten for type II feil. Derfor må valget av tillitsnivå gjøres under hensyntagen til mulig skade fra forekomsten av feil av den første og andre typen. For eksempel er de strenge grensene som brukes i biomedisinsk statistikk, som bestemmer andelen falske positive resultater på ikke mer enn 5 %, en alvorlig nødvendighet, fordi nye behandlinger blir introdusert eller avvist basert på resultatene av medisinsk forskning, og dette er en livssak for mange tusen mennesker.

Det må tas i betraktning at p-verdien i seg selv ikke er veldig informativ for en lege, siden den kun forteller om sannsynligheten for en feilaktig avvisning av nullhypotesen. Denne indikatoren sier ikke noe, for eksempel om størrelsen på den terapeutiske effekten ved bruk av studiemedikamentet i den generelle befolkningen. Derfor er det en oppfatning at i stedet for konfidensnivået, ville det være bedre å evaluere resultatene av studien etter størrelsen på konfidensintervallet. Et konfidensintervall er et verdiområde der den sanne populasjonsverdien (for gjennomsnitt, median eller frekvens) er inneholdt med en viss sannsynlighet. I praksis er det mer praktisk å ha begge disse verdiene, noe som gjør det mulig å mer selvsikkert bedømme anvendeligheten av oppnådde resultater for befolkningen som helhet.

Avslutningsvis bør det sies noen ord om verktøyene som brukes av en statistiker eller en forsker som uavhengig analyserer data. Manuelle beregninger er for lengst borte. De statistiske dataprogrammene som finnes i dag gjør det mulig å gjennomføre statistiske analyser uten å ha en seriøs matematisk bakgrunn. Slike kraftige systemer som SPSS, SAS, R osv. gjør det mulig for forskeren å bruke komplekse og kraftige statistiske metoder. Dette er imidlertid ikke alltid en god ting. Uten å vite graden av anvendelighet av de statistiske testene som brukes til spesifikke eksperimentelle data, kan forskeren gjøre beregninger og til og med få noen tall ved utgangen, men resultatet vil være svært tvilsomt. Derfor bør en forutsetning for statistisk bearbeiding av resultatene av forsøket være god kunnskap om statistikkens matematiske grunnlag.


Studieobjektet i anvendt statistikk er statistiske data innhentet som et resultat av observasjoner eller eksperimenter. Statistiske data er en samling av objekter (observasjoner, tilfeller) og funksjoner (variabler) som karakteriserer dem. Statistiske metoder for dataanalyse brukes i nesten alle områder av menneskelig aktivitet. De brukes når det er nødvendig for å innhente og underbygge eventuelle vurderinger om en gruppe (objekter eller subjekter) med en viss intern heterogenitet.

Statistiske dataanalysemetoder som tilhører gruppe a) kalles vanligvis metoder for anvendt statistikk.

Numerisk statistikk er tall, vektorer, funksjoner. De kan legges til, multiplisert med koeffisienter. I numerisk statistikk er derfor ulike summer av stor betydning. Det matematiske apparatet for å analysere summer av tilfeldige utvalgselementer er de (klassiske) lovene for store tall og sentrale grensesetninger.

Ikke-numeriske statistiske data er kategoriserte data, vektorer av heterogene trekk, binære relasjoner, sett, fuzzy sett, etc. De kan ikke adderes og multipliseres med koeffisienter.

Statistisk dataanalyse inkluderer som regel en rekke prosedyrer og algoritmer utført sekvensielt, parallelt eller i et mer komplekst opplegg. Spesielt kan følgende trinn skilles:

planlegger en statistisk studie;

organisering av innsamlingen av nødvendige statistiske data i henhold til et optimalt eller rasjonelt program (prøveplanlegging, opprettelse av en organisasjonsstruktur og valg av et team av statistikere, opplæring av personell som skal samle inn data, samt datakontrollører, etc.);

direkte innsamling av data og deres fiksering på ulike medier (med kvalitetskontroll av innsamling og avvisning av feilaktige data på grunn av fagområdet);

primær beskrivelse av data (beregning av ulike prøvekarakteristikker, distribusjonsfunksjoner, ikke-parametriske tetthetsestimater, konstruksjon av histogrammer, korrelasjonsfelt, ulike tabeller og diagrammer, etc.),

estimering av visse numeriske eller ikke-numeriske egenskaper og parametere for fordelinger (for eksempel ikke-parametrisk intervallestimering av variasjonskoeffisienten eller gjenoppretting av forholdet mellom responsen og faktorene, dvs. funksjonsestimering),

testing av statistiske hypoteser (noen ganger deres kjeder - etter å ha testet den forrige hypotesen, tas det en beslutning om å teste en eller annen etterfølgende hypotese),

mer dyptgående studie, dvs. bruken av ulike algoritmer for multivariat statistisk analyse, diagnostiske og klassifiseringsalgoritmer, statistikk over ikke-numeriske data og intervalldata, tidsserieanalyse, etc.;

verifikasjon av stabiliteten til estimatene og konklusjonene som er oppnådd mht toleranser innledende data og forutsetninger for de brukte probabilistisk-statistiske modellene, spesielt studiet av egenskapene til estimater ved hjelp av prøvemultiplikasjonsmetoden;

bruk av de oppnådde statistiske resultatene for anvendte formål (for eksempel for å diagnostisere spesifikke materialer, lage prognoser, velge et investeringsprosjekt fra de foreslåtte alternativene, finne den optimale implementeringsmåten teknologisk prosess, oppsummerer resultatene av testprøver av tekniske enheter, etc.),

utarbeidelse av sluttrapporter, spesielt beregnet på de som ikke er spesialister på statistiske metoder for dataanalyse, inkludert for ledelsen - "beslutningstakere".

Metodene inkluderer:

Korrelasjonsanalyse. Mellom variabler (random variable) kan det være en funksjonell sammenheng, manifestert i at en av dem er definert som en funksjon av den andre. Men mellom variablene kan det også være en sammenheng av en annen art, manifestert i at den ene reagerer på en endring i den andre ved å endre sin fordelingslov. Et slikt forhold kalles stokastisk. Som et mål på avhengighet mellom variabler brukes korrelasjonskoeffisienten (r), som varierer fra -1 til +1. Hvis korrelasjonskoeffisienten er negativ, betyr dette at når verdiene til en variabel øker, reduseres verdiene til den andre. Hvis variablene er uavhengige, er korrelasjonskoeffisienten 0 (det motsatte gjelder bare for variabler som har en normalfordeling). Men hvis korrelasjonskoeffisienten ikke er lik 0 (variablene kalles ukorrelerte), så betyr dette at det er en sammenheng mellom variablene. Jo nærmere verdien av r er 1, desto sterkere er avhengigheten. Korrelasjonskoeffisienten når sine ekstreme verdier på +1 eller -1 hvis og bare hvis forholdet mellom variablene er lineært. Korrelasjonsanalyse lar deg etablere styrken og retningen til det stokastiske forholdet mellom variabler (random variable).

Regresjonsanalyse. Regresjonsanalyse modellerer forholdet mellom en tilfeldig variabel og en eller flere andre tilfeldige variabler. I dette tilfellet kalles den første variabelen avhengig, og resten - uavhengig. Valget eller tilordningen av avhengige og uavhengige variabler er vilkårlig (betinget) og utføres av forskeren avhengig av problemet han løser. De uavhengige variablene kalles faktorer, regressorer eller prediktorer, og den avhengige variabelen kalles utfallsfunksjonen eller responsen.

Hvis antall prediktorer er lik 1, kalles regresjonen enkel, eller univariat, hvis antallet prediktorer er mer enn 1, multiple eller multifaktorielle. Generelt kan regresjonsmodellen skrives som følger:

y \u003d f (x 1, x 2, ..., x n),

hvor y - avhengig variabel (respons), x i (i = 1,..., n) - prediktorer (faktorer), n - antall prediktorer.

Kanonisk analyse. Kanonisk analyse er designet for å analysere avhengigheter mellom to lister med funksjoner (uavhengige variabler) som karakteriserer objekter. For eksempel kan du studere forholdet mellom ulike ugunstige faktorer og utseendet til en viss gruppe symptomer på en sykdom, eller forholdet mellom to grupper av kliniske og laboratorieparametere (syndromer) til en pasient. Kanonisk analyse er en generalisering av multippel korrelasjon som et mål på forholdet mellom en variabel og mange andre variabler.

Metoder for å sammenligne gjennomsnitt. I anvendt forskning er det ofte tilfeller der gjennomsnittsresultatet av noen funksjoner i en serie av eksperimenter er forskjellig fra gjennomsnittsresultatet for en annen serie. Siden gjennomsnittene er resultater av målinger, er de som regel alltid forskjellige, spørsmålet er om den observerte avviket mellom gjennomsnittene kan forklares av eksperimentets uunngåelige tilfeldige feil, eller er det på grunn av visse årsaker. Sammenligning av gjennomsnittlige resultater er en av måtene å identifisere avhengigheter mellom variable funksjoner som karakteriserer det studerte settet med objekter (observasjoner). Hvis, når man deler undersøkelsesobjektene inn i undergrupper ved å bruke en kategorisk uavhengig variabel (prediktor), hypotesen om ulikheten mellom middelverdiene til en avhengig variabel i undergrupper er sann, betyr dette at det er en stokastisk sammenheng mellom denne avhengige variabelen og den kategoriske prediktoren.

Frekvensanalyse. Frekvenstabeller, eller som de også kalles single-input-tabeller, er enkleste metoden analyse av kategoriske variabler. Denne typen statistiske studier brukes ofte som en av de eksplorative analyseprosedyrene for å se hvordan ulike grupper av observasjoner er fordelt i utvalget, eller hvordan verdien av et trekk er fordelt over intervallet fra minimums- til maksimumsverdien. Krysstabulering (konjugering) er prosessen med å kombinere to (eller flere) frekvenstabeller slik at hver celle i den konstruerte tabellen er representert av en enkelt kombinasjon av verdier eller nivåer av tabulerte variabler. Krysstabulering gjør det mulig å kombinere frekvensene for forekomst av observasjoner på forskjellige nivåer av de vurderte faktorene.

Korrespondanseanalyse. Korrespondanseanalyse, sammenlignet med frekvensanalyse, inneholder kraftigere beskrivende og utforskende metoder for å analysere toveis- og flerveistabeller. Metoden, i likhet med beredskapstabeller, lar deg utforske strukturen og forholdet til grupperingsvariabler inkludert i tabellen.

klyngeanalyse. Klyngeanalyse er en klassifikasjonsanalysemetode; dens hovedformål er å dele settet med objekter og funksjoner som studeres i grupper eller klynger som er homogene i en viss forstand. Dette er en multivariat statistisk metode, så det antas at de initiale dataene kan være av et betydelig volum, dvs. både antall studieobjekter (observasjoner) og trekkene som karakteriserer disse objektene kan være betydelig store. Den store fordelen med klyngeanalyse er at den gjør det mulig å partisjonere objekter ikke etter én attributt, men etter en rekke attributter. I tillegg pålegger klyngeanalyse, i motsetning til de fleste matematiske og statistiske metoder, ingen begrensninger på typen objekter som vurderes, og lar deg utforske mange innledende data av nesten vilkårlig karakter.

Diskriminerende analyse. Diskriminantanalyse inkluderer statistiske metoder for å klassifisere multivariate observasjoner i en situasjon hvor forskeren har de såkalte treningsprøvene. Denne typen analyse er flerdimensjonal, siden den bruker flere funksjoner ved objektet, hvorav antallet kan være vilkårlig stort. Hensikten med diskriminantanalyse er å klassifisere den, basert på måling av ulike egenskaper (trekk) til et objekt, dvs. bli tildelt en av flere gitte grupper (klasser) på en optimal måte. Det antas at de første dataene, sammen med egenskapene til objektene, inneholder en kategorisk (grupperings)variabel som bestemmer om objektet tilhører en bestemt gruppe. Faktor analyse. Faktoranalyse er en av de mest populære multivariate statistiske metodene. Hvis klynge- og diskriminantmetodene klassifiserer observasjoner, deler dem inn i homogenitetsgrupper, så klassifiserer faktoranalyse funksjonene (variablene) som beskriver observasjonene. Derfor er hovedmålet med faktoranalyse å redusere antall variabler basert på klassifiseringen av variabler og bestemme strukturen av sammenhengene mellom dem.

Klassifiseringstrær. Klassifiseringstrær er en metode for klassifiseringsanalyse som lar deg forutsi tilhørigheten til objekter til en bestemt klasse, avhengig av de tilsvarende verdiene til funksjonene som karakteriserer objektene. Attributter kalles uavhengige variabler, og en variabel som angir om objekter tilhører klasser kalles avhengige. I motsetning til klassisk diskriminantanalyse, er klassifiseringstrær i stand til å utføre endimensjonal forgrening i variabler forskjellige typer kategorisk, ordinal, intervall. Ingen restriksjoner er pålagt loven om distribusjon av kvantitative variabler. I analogi med diskriminantanalyse gjør metoden det mulig å analysere bidragene til individuelle variabler til klassifiseringsprosedyren.

Hovedkomponentanalyse og klassifisering. Metoden for hovedkomponentanalyse og klassifisering gjør det mulig å løse dette problemet og tjener til å oppnå to mål:

redusere det totale antallet variabler (datareduksjon) for å oppnå "hoved" og "ikke-korrelerte" variabler;

klassifisering av variabler og observasjoner, ved bruk av det konstruerte faktorrommet.

Løsningen av hovedproblemet til metoden oppnås ved å lage et vektorrom av latente (skjulte) variabler (faktorer) med en dimensjon mindre enn den opprinnelige. Startdimensjonen bestemmes av antall variabler for analyse i kildedataene.

Flerdimensjonal skalering. Metoden kan sees på som et alternativ til faktoranalyse, som oppnår en reduksjon i antall variabler ved å fremheve latente (ikke direkte observerte) faktorer som forklarer sammenhengene mellom de observerte variablene. Hensikten med flerdimensjonal skalering er å finne og tolke latente variabler som gjør det mulig for brukeren å forklare likhetene mellom objekter gitt punkter i det opprinnelige funksjonsrommet. I praksis kan indikatorer på likheten mellom objekter være avstander eller grader av sammenheng mellom dem. I faktoranalyse uttrykkes likheter mellom variabler ved hjelp av en matrise av korrelasjonskoeffisienter. I flerdimensjonal skalering kan en vilkårlig type objektlikhetsmatrise brukes som inngangsdata: avstander, korrelasjoner, etc.

Modellering ved strukturelle ligninger (årsaksmodellering). Objektet for å modellere strukturelle ligninger er komplekse systemer, hvis interne struktur ikke er kjent ("svart boks"). Hovedideen med strukturell ligningsmodellering er at du kan sjekke om variablene Y og X er relatert til et lineært forhold Y = aX ved å analysere deres varianser og kovarianser. Denne ideen er basert på en enkel egenskap av gjennomsnitt og varians: Hvis du multipliserer hvert tall med en konstant k, multipliseres også gjennomsnittet med k, med standardavviket multiplisert med modulen til k.

Tidsserier. Tidsserier er det mest intensivt utviklende, lovende området innen matematisk statistikk. En tidsserie (dynamisk) er en sekvens av observasjoner av en viss attributt X (tilfeldig variabel) ved påfølgende ekvidistante øyeblikk t. Individuelle observasjoner kalles nivåer av serien og er betegnet med xt, t = 1, ..., n. Når du studerer en tidsserie, skilles flere komponenter ut:

x t \u003d u t + y t + c t + e t, t \u003d 1, ..., n,

hvor u t er en trend, en jevnt skiftende komponent som beskriver nettoeffekten av langsiktige faktorer (befolkningsnedgang, inntektsnedgang, etc.); - sesongmessig komponent, som gjenspeiler frekvensen av prosesser over en ikke veldig lang periode (dag, uke, måned, etc.); сt - syklisk komponent, som gjenspeiler frekvensen av prosesser over lange tidsperioder over ett år; t er en tilfeldig komponent som gjenspeiler påvirkningen av tilfeldige faktorer som ikke kan gjøres rede for og registreres. De tre første komponentene er deterministiske komponenter.

Nevrale nettverk. Nevrale nettverk er et datasystem, hvis arkitektur er analog med konstruksjonen av nervevev fra nevroner. Nevronene i det laveste laget leveres med verdiene til inngangsparametrene, på grunnlag av hvilke visse beslutninger må tas.

Eksperimentplanlegging. Kunsten å arrangere observasjoner i en bestemt rekkefølge eller gjennomføre spesielt planlagte kontroller for å utnytte mulighetene til disse metodene fullt ut er innholdet i faget «eksperimentell design».

Kvalitetskontrollkort. Kvaliteten på produkter og tjenester dannes i prosessen med vitenskapelig forskning, design og teknologisk utvikling, og sikres av en god organisering av produksjon og tjenester. Men produksjon av produkter og levering av tjenester, uavhengig av deres type, er alltid forbundet med en viss variasjon i produksjons- og leveringsbetingelsene. Dette fører til en viss variasjon i egenskapene til kvaliteten deres. Derfor er spørsmålene om utvikling av kvalitetskontrollmetoder som vil tillate rettidig oppdagelse av tegn på brudd på den teknologiske prosessen eller levering av tjenester relevante.

Ulike enheter av den statistiske populasjonen, som har en viss likhet seg imellom når det gjelder tilstrekkelig viktige egenskaper, kombineres til grupper ved hjelp av grupperingsmetoden. Denne teknikken lar deg "komprimere" informasjonen som er oppnådd i løpet av observasjonen, og på dette grunnlaget å etablere mønstre som er iboende i fenomenet som studeres.

Grupperingsmetoden brukes til å løse ulike problemer, hvorav de viktigste er:

1. tildeling av sosioøkonomiske typer

2. Bestemme strukturen til lignende samlinger

3. avsløre koblinger og mønstre mellom individuelle trekk ved sosiale fenomener

I denne forbindelse er det 3 typer grupperinger: typologisk, strukturell og analytisk. Grupperinger kjennetegnes ved oppførselsform.

Den typologiske grupperingen er inndelingen av den undersøkte kvalitativt heterogene statistiske populasjonen i klasser, sosioøkonomiske typer, homogene grupper av enheter.

Strukturelle grupperinger deler et kvalitativt homogent sett av enheter i henhold til visse, essensielle trekk i grupper som karakteriserer dets sammensetning og interne struktur.

Analytiske grupperinger sikrer etableringen av sammenhengen og gjensidig avhengighet mellom de studerte sosioøkonomiske fenomenene og egenskapene som kjennetegner dem. Ved hjelp av denne typen gruppering etableres og studeres årsakssammenhenger mellom tegnene på homogene fenomener, og faktorer for utviklingen av en statistisk populasjon bestemmes.

Studieobjektet i anvendt statistikk er statistiske data innhentet som et resultat av observasjoner eller eksperimenter. Statistiske data er et sett med objekter (observasjoner, tilfeller) og funksjoner (variabler) som karakteriserer dem. For eksempel er studieobjektene landene i verden og tegn, - geografiske og økonomiske indikatorer som karakteriserer dem: kontinent; høyden på området over havet; gjennomsnittlig årlig temperatur; landets plass på listen når det gjelder livskvalitet, andel av BNP per innbygger; offentlige utgifter til helsevesen, utdanning, hæren; gjennomsnittlig forventet levealder; andel av arbeidsledigheten, analfabeter; livskvalitetsindeks osv.
Variabler er størrelser som som følge av måling kan få ulike verdier.
Uavhengige variabler er variabler hvis verdier kan endres under eksperimentet, og avhengige variabler er variabler hvis verdier bare kan måles.
Variabler kan måles på ulike skalaer. Forskjellen mellom skalaene bestemmes av informasjonsinnholdet. Følgende typer skalaer vurderes, presentert i stigende rekkefølge etter informasjonsinnholdet: nominell, ordinal, intervall, forholdsskala, absolutt. Disse skalaene skiller seg også fra hverandre i antall gyldige matematiske operasjoner. Den "fattigste" skalaen er nominell, siden ikke en eneste aritmetisk operasjon er definert, den "rikeste" i seg selv er absolutt.
Måling i nominell (klassifisering) skala betyr å bestemme om et objekt (observasjon) tilhører en bestemt klasse. For eksempel: kjønn, tjenestegren, yrke, kontinent, etc. I denne skalaen kan man kun telle antall objekter i klasser - frekvens og relativ frekvens.
Måling i ordinær (rang) skala, i tillegg til å bestemme klassen for tilhørighet, lar deg strømlinjeforme observasjoner ved å sammenligne dem med hverandre i noen henseende. Denne skalaen bestemmer imidlertid ikke avstanden mellom klassene, men kun hvilken av de to observasjonene som er å foretrekke. Derfor kan ikke ordinære eksperimentelle data, selv om de er representert med tall, betraktes som tall og aritmetiske operasjoner kan utføres på dem 5 . I denne skalaen, i tillegg til å beregne frekvensen til et objekt, kan du beregne rangeringen til objektet. Eksempler på variabler målt på en ordinær skala: studentpoeng, premier i konkurranser, militære rekker, et lands plassering i en liste over livskvalitet osv. Noen ganger kalles nominale og ordinale variabler kategoriske, eller gruppering, da de tillater inndeling av forskningsobjekter i undergrupper.
Ved måling på en intervallskala kan rekkefølgen av observasjonene gjøres så nøyaktig at avstandene mellom to av dem er kjent. Intervallskalaen er unik opp til lineære transformasjoner (y = ax + b). Dette betyr at skalaen har et vilkårlig referansepunkt - betinget null. Eksempler på variabler målt på en intervallskala: temperatur, tid, høyde over havet. Variabler i en gitt skala kan opereres på for å bestemme avstanden mellom observasjoner. Avstander er hele tall og alle aritmetiske operasjoner kan utføres på dem.
Forholdsskalaen er lik intervallskalaen, men den er unik opp til en transformasjon av formen y = ax. Dette betyr at skalaen har et fast referansepunkt - absolutt null, men en vilkårlig måleskala. Eksempler på variabler målt på en forholdsskala: lengde, vekt, strøm, pengebeløp, samfunnets utgifter til helsevesen, utdanning, militæret, forventet levealder osv. Målingene i denne skalaen er hele tall, og alle aritmetiske operasjoner kan utføres på dem.
En absolutt skala har både en absolutt null og en absolutt måleenhet (skala). Et eksempel på en absolutt skala er talllinjen. Denne skalaen er dimensjonsløs, så målinger i den kan brukes som en eksponent eller basis for en logaritme. Eksempler på målinger i en absolutt skala: arbeidsledighet; andel analfabeter, livskvalitetsindeks mv.
De fleste av de statistiske metodene er parametriske statistikkmetoder basert på antakelsen om at en tilfeldig vektor av variabler danner en eller annen multivariatfordeling, vanligvis normal eller transformeres til en normalfordeling. Hvis denne antakelsen ikke bekreftes, bør ikke-parametriske metoder for matematisk statistikk brukes.

Korrelasjonsanalyse. Mellom variabler (random variable) kan det være en funksjonell sammenheng, manifestert i at en av dem er definert som en funksjon av den andre. Men mellom variablene kan det også være en sammenheng av en annen art, manifestert i at den ene reagerer på en endring i den andre ved å endre sin fordelingslov. Et slikt forhold kalles stokastisk. Det vises når det er vanlige tilfeldige faktorer som påvirker begge variablene. Som et mål på avhengighet mellom variabler brukes korrelasjonskoeffisienten (r), som varierer fra -1 til +1. Hvis korrelasjonskoeffisienten er negativ, betyr dette at når verdiene til en variabel øker, reduseres verdiene til den andre. Hvis variablene er uavhengige, er korrelasjonskoeffisienten 0 (det motsatte gjelder bare for variabler som har en normalfordeling). Men hvis korrelasjonskoeffisienten ikke er lik 0 (variablene kalles ukorrelerte), så betyr dette at det er en sammenheng mellom variablene. Jo nærmere verdien av r er 1, desto sterkere er avhengigheten. Korrelasjonskoeffisienten når sine ekstreme verdier på +1 eller -1 hvis og bare hvis forholdet mellom variablene er lineært. Korrelasjonsanalyse lar deg etablere styrken og retningen til det stokastiske forholdet mellom variabler (random variable). Hvis variablene er målt minst på en intervallskala og har en normalfordeling, utføres korrelasjonsanalyse ved å beregne Pearson-korrelasjonskoeffisienten, ellers brukes Spearman, Kendals tau eller Gamma-korrelasjoner.

Regresjonsanalyse. Regresjonsanalyse modellerer forholdet mellom en tilfeldig variabel og en eller flere andre tilfeldige variabler. I dette tilfellet kalles den første variabelen avhengig, og resten - uavhengig. Valget eller tilordningen av avhengige og uavhengige variabler er vilkårlig (betinget) og utføres av forskeren avhengig av problemet han løser. De uavhengige variablene kalles faktorer, regressorer eller prediktorer, og den avhengige variabelen kalles utfallsfunksjonen eller responsen.
Hvis antall prediktorer er lik 1, kalles regresjonen enkel, eller univariat, hvis antallet prediktorer er mer enn 1, multiple eller multifaktorielle. Generelt kan regresjonsmodellen skrives som følger:

Y \u003d f (x 1, x 2, ..., x n),

Der y er den avhengige variabelen (respons), x i (i = 1,..., n) er prediktorer (faktorer), n er antall prediktorer.
Gjennom regresjonsanalyse er det mulig å løse en rekke viktige oppgaver for problemet som studeres:
1). Redusere dimensjonen av rommet til analyserte variabler (faktorrom), ved å erstatte en del av faktorene med én variabel - responsen. Dette problemet løses mer fullstendig ved faktoranalyse.
2). Kvantifisere effekten av hver faktor, dvs. multippel regresjon, lar forskeren spørre (og sannsynligvis få et svar) om "hva som er den beste prediktoren for ...". Samtidig blir påvirkningen av individuelle faktorer på responsen tydeligere, og forskeren forstår bedre arten av fenomenet som studeres.
3). Beregning av prediktive responsverdier for visse faktorverdier, dvs. regresjonsanalyse, skaper grunnlaget for et beregningseksperiment for å få svar på spørsmål som "Hva vil skje hvis ...".
4). I regresjonsanalyse opptrer årsaksmekanismen i en mer eksplisitt form. I dette tilfellet egner prognosen seg bedre til meningsfull tolkning.

Kanonisk analyse. Kanonisk analyse er designet for å analysere avhengigheter mellom to lister med funksjoner (uavhengige variabler) som karakteriserer objekter. For eksempel kan du studere forholdet mellom ulike ugunstige faktorer og utseendet til en viss gruppe symptomer på en sykdom, eller forholdet mellom to grupper av kliniske og laboratorieparametere (syndromer) til en pasient. Kanonisk analyse er en generalisering av multippel korrelasjon som et mål på forholdet mellom en variabel og mange andre variabler. Som du vet, er multippel korrelasjon den maksimale korrelasjonen mellom en variabel og lineær funksjon andre variabler. Dette konseptet har blitt generalisert til tilfellet med en sammenheng mellom sett med variabler - egenskaper som karakteriserer objekter. Det er imidlertid tilstrekkelig å vurdere å ikke et stort antall de mest korrelerte lineære kombinasjonene fra hvert sett. La for eksempel det første settet med variabler består av fortegn y1, ..., ur, det andre settet består av - x1, ..., xq, så kan forholdet mellom disse settene estimeres som en korrelasjon mellom lineære kombinasjoner a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq, som kalles den kanoniske korrelasjonen. Oppgaven med kanonisk analyse er å finne vektkoeffisientene på en slik måte at den kanoniske korrelasjonen er maksimal.

Metoder for å sammenligne gjennomsnitt. I anvendt forskning er det ofte tilfeller der gjennomsnittsresultatet av noen funksjoner i en serie av eksperimenter er forskjellig fra gjennomsnittsresultatet for en annen serie. Siden gjennomsnittene er resultater av målinger, er de som regel alltid forskjellige, spørsmålet er om den observerte avviket mellom gjennomsnittene kan forklares av eksperimentets uunngåelige tilfeldige feil, eller er det på grunn av visse årsaker. Hvis vi snakker om å sammenligne to middel, så kan du bruke Studentens test (t-test). Dette er en parametrisk test, siden det antas at egenskapen har en normalfordeling i hver forsøksserie. For tiden har det blitt moderne å bruke ikke-parametriske kriterier for å sammenligne gjennomsnitt
Sammenligning av gjennomsnittlige resultater er en av måtene å identifisere avhengigheter mellom variable funksjoner som karakteriserer det studerte settet med objekter (observasjoner). Hvis, når man deler undersøkelsesobjektene inn i undergrupper ved å bruke en kategorisk uavhengig variabel (prediktor), hypotesen om ulikheten mellom middelverdiene til en avhengig variabel i undergrupper er sann, betyr dette at det er en stokastisk sammenheng mellom denne avhengige variabelen og den kategoriske prediktoren. Så hvis det for eksempel fastslås at hypotesen om likheten mellom de gjennomsnittlige indikatorene for den fysiske og intellektuelle utviklingen til barn i gruppene av mødre som røykte og ikke røykte under svangerskapet er feil, betyr dette at det er en forholdet mellom barnets mors røyking under svangerskapet og dets intellektuelle og fysiske utvikling.
Den vanligste metoden for å sammenligne gjennomsnitt er variansanalyse. I ANOVA-terminologi kalles en kategorisk prediktor en faktor.
Variansanalyse kan defineres som en parametrisk, statistisk metode designet for å vurdere påvirkningen av ulike faktorer på resultatet av et eksperiment, samt for den påfølgende planleggingen av eksperimenter. Derfor er det i variansanalysen mulig å undersøke avhengigheten av et kvantitativt trekk av ett eller flere kvalitative trekk ved faktorene. Hvis én faktor vurderes, brukes enveis variansanalyse, ellers brukes multivariat variansanalyse.

Frekvensanalyse. Frekvenstabeller, eller som de også kalles single-entry-tabeller, er den enkleste metoden for å analysere kategoriske variabler. Frekvenstabeller kan også med hell brukes til å studere kvantitative variabler, selv om dette kan føre til vanskeligheter med å tolke resultatene. Denne typen statistiske studier brukes ofte som en av de eksplorative analyseprosedyrene for å se hvordan ulike grupper av observasjoner er fordelt i utvalget, eller hvordan verdien av et trekk er fordelt over intervallet fra minimums- til maksimumsverdien. Som regel er frekvenstabeller grafisk illustrert ved hjelp av histogrammer.

Krysstabulering (paring)– prosessen med å kombinere to (eller flere) frekvenstabeller slik at hver celle i den konstruerte tabellen er representert av en enkelt kombinasjon av verdier eller nivåer av tabellvariabler. Krysstabulering gjør det mulig å kombinere frekvensene for forekomst av observasjoner på forskjellige nivåer av de vurderte faktorene. Ved å undersøke disse frekvensene er det mulig å identifisere sammenhenger mellom de tabellerte variablene og utforske strukturen til dette forholdet. Typisk tabulert er kategoriske eller skalavariabler med relativt få verdier. Hvis en kontinuerlig variabel skal tabuleres (f.eks. blodsukkernivå), bør den først omkodes ved å dele endringsområdet inn i et lite antall intervaller (f.eks. nivå: lavt, middels, høyt).

Korrespondanseanalyse. Korrespondanseanalyse, sammenlignet med frekvensanalyse, inneholder kraftigere beskrivende og utforskende metoder for å analysere toveis- og flerveistabeller. Metoden, i likhet med beredskapstabeller, lar deg utforske strukturen og forholdet til grupperingsvariabler inkludert i tabellen. I klassisk korrespondanseanalyse er frekvensene i beredskapstabellen standardisert (normalisert) på en slik måte at summen av elementene i alle celler er lik 1.
Et av målene med korrespondanseanalysen er å representere innholdet i tabellen over relative frekvenser i form av avstander mellom individuelle rader og/eller kolonner i tabellen i et lavere dimensjonalt rom.

klyngeanalyse. Klyngeanalyse er en klassifikasjonsanalysemetode; dens hovedformål er å dele settet med objekter og funksjoner som studeres i grupper eller klynger som er homogene i en viss forstand. Dette er en multivariat statistisk metode, så det antas at de initiale dataene kan være av et betydelig volum, dvs. både antall studieobjekter (observasjoner) og trekkene som karakteriserer disse objektene kan være betydelig store. Den store fordelen med klyngeanalyse er at den gjør det mulig å partisjonere objekter ikke etter én attributt, men etter en rekke attributter. I tillegg pålegger klyngeanalyse, i motsetning til de fleste matematiske og statistiske metoder, ingen begrensninger på typen objekter som vurderes, og lar deg utforske mange innledende data av nesten vilkårlig karakter. Siden klynger er grupper av homogenitet, er oppgaven med klyngeanalyse å dele opp settet deres i m (m - heltall) klynger basert på egenskapene til objekter, slik at hvert objekt tilhører bare én partisjonsgruppe. Samtidig må objekter som tilhører samme klynge være homogene (liknende), og objekter som tilhører ulike klynger må være heterogene. Hvis klyngeobjekter er representert som punkter i det n-dimensjonale trekkrommet (n er antall trekk som karakteriserer objekter), så bestemmes likheten mellom objekter gjennom konseptet av avstanden mellom punkter, siden det er intuitivt klart at jo mindre avstanden mellom objektene, jo mer like er de.

Diskriminerende analyse. Diskriminantanalyse inkluderer statistiske metoder for å klassifisere multivariate observasjoner i en situasjon hvor forskeren har de såkalte treningsprøvene. Denne typen analyse er flerdimensjonal, siden den bruker flere funksjoner ved objektet, hvorav antallet kan være vilkårlig stort. Formålet med diskriminantanalyse er å klassifisere et objekt basert på måling av ulike egenskaper (funksjoner), dvs. å tilskrive det til en av flere spesifiserte grupper (klasser) på en optimal måte. Det antas at de første dataene, sammen med egenskapene til objektene, inneholder en kategorisk (grupperings)variabel som bestemmer om objektet tilhører en bestemt gruppe. Derfor sørger diskriminantanalyse for å kontrollere konsistensen av klassifiseringen utført av metoden med den opprinnelige empiriske klassifiseringen. Den optimale metoden forstås som enten minimum av den matematiske forventningen om tap, eller minimum av sannsynligheten for falsk klassifisering. I den generelle saken er diskrimineringsproblematikken (diskriminering) formulert slik. La resultatet av observasjon over et objekt være konstruksjonen av en k-dimensjonal tilfeldig vektor Х = (X1, X2, …, XК), der X1, X2, …, XК er egenskapene til objektet. Det er nødvendig å etablere en regel i henhold til hvilken, i henhold til verdiene til koordinatene til vektoren X, objektet er tilordnet et av de mulige settene i, i = 1, 2, ..., n. Diskrimineringsmetoder kan betinget deles inn i parametriske og ikke-parametriske. I parametrisk er det kjent at fordelingen av egenskapsvektorer i hver populasjon er normal, men det er ingen informasjon om parametrene til disse fordelingene. Ikke-parametriske diskrimineringsmetoder krever ikke kunnskap om det eksakte funksjonell form fordelinger og gjøre det mulig å løse diskrimineringsproblemer basert på ubetydelig a priori informasjon om populasjoner, som er spesielt verdifull for praktiske anvendelser. Hvis betingelsene for anvendelighet av diskriminantanalyse er oppfylt - uavhengige variabler-funksjoner (de kalles også prediktorer) må måles minst på en intervallskala, deres fordeling må samsvare med normalloven, det er nødvendig å bruke klassisk diskriminantanalyse , ellers - metoden for generelle modeller for diskriminant analyse.

Faktor analyse. Faktoranalyse er en av de mest populære multivariate statistiske metodene. Hvis klynge- og diskriminantmetodene klassifiserer observasjoner, deler dem inn i homogenitetsgrupper, så klassifiserer faktoranalyse funksjonene (variablene) som beskriver observasjonene. Derfor er hovedmålet med faktoranalyse å redusere antall variabler basert på klassifiseringen av variabler og bestemme strukturen av sammenhengene mellom dem. Reduksjonen oppnås ved å fremheve de skjulte (latente) fellesfaktorene som forklarer forholdet mellom de observerte egenskapene til objektet, dvs. i stedet for det innledende settet med variabler, vil det være mulig å analysere data om de valgte faktorene, hvor antallet er mye mindre enn det opprinnelige antallet interrelaterte variabler.

Klassifiseringstrær. Klassifiseringstrær er en klassifiseringsanalysemetode som lar deg forutsi tilhørigheten til objekter til en bestemt klasse, avhengig av de tilsvarende verdiene til funksjonene som karakteriserer objektene. Attributter kalles uavhengige variabler, og en variabel som angir om objekter tilhører klasser kalles avhengige. I motsetning til klassisk diskriminantanalyse, er klassifiseringstrær i stand til å utføre endimensjonal forgrening på variabler av forskjellige typer - kategorisk, ordinal, intervall. Ingen restriksjoner er pålagt loven om distribusjon av kvantitative variabler. I analogi med diskriminantanalyse gjør metoden det mulig å analysere bidragene til individuelle variabler til klassifiseringsprosedyren. Klassifiseringstrær kan være, og noen ganger er, veldig komplekse. Bruken av spesielle grafiske prosedyrer gjør det imidlertid mulig å forenkle tolkningen av resultatene selv for svært komplekse trær. Muligheten for grafisk presentasjon av resultater og enkel tolkning forklarer i stor grad den store populariteten til klassifiseringstrær i anvendte felt, men de viktigste kjennetegnene til klassifiseringstrær er deres hierarki og brede anvendelighet. Strukturen til metoden er slik at brukeren har muligheten til å bygge trær med vilkårlig kompleksitet ved å bruke kontrollerte parametere, og oppnå minimale klassifiseringsfeil. Men ifølge et komplekst tre, på grunn av det store settet med beslutningsregler, er det vanskelig å klassifisere et nytt objekt. Derfor, når brukeren konstruerer et klassifiseringstre, må brukeren finne et rimelig kompromiss mellom kompleksiteten til treet og kompleksiteten til klassifiseringsprosedyren. Den brede anvendeligheten til klassifiseringstrær gjør dem til et svært attraktivt verktøy for dataanalyse, men det bør ikke antas at det anbefales å brukes i stedet for tradisjonelle metoder for klassifiseringsanalyse. Tvert imot, hvis strengere teoretiske forutsetninger pålagt av tradisjonelle metoder er tilfredsstilt, og prøvefordelingen har noen spesielle egenskaper(for eksempel samsvaret mellom fordelingen av variabler til normalloven), da vil bruken av tradisjonelle metoder være mer effektiv. Men som en metode for utforskende analyse eller som en siste utvei når alle tradisjonelle metoder mislykkes, er Classification Trees, ifølge mange forskere, uten sidestykke.

Hovedkomponentanalyse og klassifisering. I praksis oppstår ofte problemet med å analysere høydimensjonale data. Metoden for hovedkomponentanalyse og klassifisering gjør det mulig å løse dette problemet og tjener til å oppnå to mål:
– reduksjon av det totale antallet variabler (datareduksjon) for å få «hoved» og «ikke-korrelerte» variabler;
– klassifisering av variabler og observasjoner, ved hjelp av faktorrommet under konstruksjon.
Metoden ligner faktoranalyse i formuleringen av oppgavene som løses, men har en rekke signifikante forskjeller:
– i analysen av hovedkomponenter brukes ikke iterative metoder for å trekke ut faktorer;
– sammen med de aktive variablene og observasjonene som brukes til å trekke ut hovedkomponentene, kan hjelpevariabler og/eller observasjoner spesifiseres; deretter projiseres hjelpevariablene og observasjonene på faktorrommet beregnet fra de aktive variablene og observasjonene;
- de listede mulighetene tillater bruk av metoden som et kraftig verktøy for å klassifisere både variabler og observasjoner.
Løsningen av hovedproblemet til metoden oppnås ved å lage et vektorrom av latente (skjulte) variabler (faktorer) med en dimensjon mindre enn den opprinnelige. Startdimensjonen bestemmes av antall variabler for analyse i kildedataene.

Flerdimensjonal skalering. Metoden kan sees på som et alternativ til faktoranalyse, som oppnår en reduksjon i antall variabler ved å fremheve latente (ikke direkte observerte) faktorer som forklarer sammenhengene mellom de observerte variablene. Hensikten med flerdimensjonal skalering er å finne og tolke latente variabler som gjør det mulig for brukeren å forklare likhetene mellom objekter gitt punkter i det opprinnelige funksjonsrommet. I praksis kan indikatorer på likheten mellom objekter være avstander eller grader av sammenheng mellom dem. I faktoranalyse uttrykkes likheter mellom variabler ved hjelp av en matrise av korrelasjonskoeffisienter. I flerdimensjonal skalering kan en vilkårlig type objektlikhetsmatrise brukes som inngangsdata: avstander, korrelasjoner, etc. Til tross for at det er mange likheter i karakteren av problemstillingene som studeres, har metodene for multivariat skalering og faktoranalyse en rekke signifikante forskjeller. Faktoranalyse krever derfor at dataene som studeres følger en multivariat normalfordeling, og avhengighetene er lineære. Flerdimensjonal skalering pålegger ikke slike begrensninger, den kan brukes hvis matrisen av parvise likheter til objekter er gitt. Når det gjelder forskjeller i utfall, søker faktoranalyse å trekke ut flere latente variabler enn multivariat skalering. Derfor fører flerdimensjonal skalering ofte til lettere å tolke løsninger. Enda viktigere er det imidlertid at multivariat skalering kan brukes på enhver type avstand eller likhet, mens faktoranalyse krever en korrelasjonsmatrise av variabler som skal brukes som input eller en korrelasjonsmatrise som skal beregnes fra inngangsdatafilen først. Hovedantakelsen om flerdimensjonal skalering er at det er et visst metrisk rom med essensielle grunnleggende egenskaper, som implisitt fungerte som grunnlaget for de oppnådde empiriske dataene om nærheten mellom par av objekter. Derfor kan objekter representeres som punkter i dette rommet. Det antas også at nærmere (i henhold til den opprinnelige matrisen) objekter tilsvarer mindre avstander i rommet med grunnleggende egenskaper. Derfor er flerdimensjonal skalering et sett med metoder for å analysere empiriske data om objekters nærhet, ved hjelp av hvilke dimensjonen av rommet til egenskapene til de målte objektene som er essensielle for en gitt meningsfull oppgave bestemmes og konfigurasjonen av punkter (objekter) i dette rommet er konstruert. Dette rommet ("flerdimensjonal skala") ligner på de ofte brukte skalaene i den forstand at verdiene til de essensielle egenskapene til de målte objektene tilsvarer visse posisjoner på rommets akser. Logikken til flerdimensjonal skalering kan illustreres med følgende enkle eksempel. Anta at det er en matrise av parvise avstander (dvs. likheter mellom noen funksjoner) mellom noen byer. Ved å analysere matrisen er det nødvendig å plassere punkter med koordinatene til byer i todimensjonalt rom (på et plan), og bevare de virkelige avstandene mellom dem så mye som mulig. Den resulterende plasseringen av punkter på flyet kan senere brukes som en omtrentlig geografisk kart. I det generelle tilfellet lar flerdimensjonal skalering objekter (byer i vårt eksempel) lokaliseres i et rom med en liten dimensjon (i dette tilfellet er det lik to) på en slik måte at de observerte avstandene mellom dem kan reproduseres tilstrekkelig. Som et resultat kan disse avstandene måles i form av de funnet latente variablene. Så i vårt eksempel kan vi forklare avstander i form av et par geografiske koordinater nord/sør og øst/vest.

Modellering ved strukturelle ligninger (årsaksmodellering). Nylig fremgang innen multivariat statistisk analyse og analysen av korrelasjonsstrukturer, kombinert med de nyeste beregningsalgoritmene, fungerte som utgangspunktet for etableringen av en ny, men allerede anerkjent teknikk for strukturell ligningsmodellering (SEPATH). Denne ekstraordinært kraftige teknikken for multivariat analyse inkluderer metoder fra ulike felt av statistikk, multippel regresjon og faktoranalyse er naturlig utviklet og kombinert her.
Objektet for å modellere strukturelle ligninger er komplekse systemer, hvis interne struktur ikke er kjent ("svart boks"). Ved å observere systemparametere ved hjelp av SEPATH, kan du utforske strukturen, etablere årsak-og-virkning-forhold mellom systemelementer.
Uttalelsen av problemet med strukturell modellering er som følger. La det være variabler som de statistiske momentene er kjent for, for eksempel en matrise av prøvekorrelasjon eller kovarianskoeffisienter. Slike variabler kalles eksplisitte. De kan være kjennetegn ved et komplekst system. De reelle sammenhengene mellom de observerte eksplisitte variablene kan være ganske komplekse, men vi antar at det finnes en rekke skjulte variabler som forklarer strukturen til disse sammenhengene med en viss grad av nøyaktighet. Ved hjelp av latente variabler bygges altså en modell av sammenhenger mellom eksplisitte og implisitte variabler. I noen oppgaver kan latente variabler betraktes som årsaker, og eksplisitte som konsekvenser, derfor kalles slike modeller kausale. Det antas at skjulte variabler på sin side kan relateres til hverandre. Strukturen av forbindelser er ment å være ganske kompleks, men typen er postulert - dette er forbindelser beskrevet av lineære ligninger. Noen parametere for lineære modeller er kjent, noen er ikke, og er gratis parametere.
Hovedideen med strukturell ligningsmodellering er at du kan sjekke om variablene Y og X er relatert til et lineært forhold Y = aX ved å analysere deres varianser og kovarianser. Denne ideen er basert på en enkel egenskap av gjennomsnitt og varians: Hvis du multipliserer hvert tall med en konstant k, multipliseres også gjennomsnittet med k, med standardavviket multiplisert med modulen til k. Tenk for eksempel på et sett med tre tall 1, 2, 3. Disse tallene har et gjennomsnitt lik 2 og et standardavvik lik 1. Hvis du multipliserer alle tre tallene med 4, så er det lett å regne ut at gjennomsnittet vil være lik 8, standardavviket er 4, og variansen er 16. Så hvis det er sett med tall X og Y relatert til Y = 4X, må variansen til Y være 16 ganger større enn variansen til X. Derfor kan vi teste hypotesen om at Y og X er relaterte ligning Y = 4X, og sammenligne variansene til variablene Y og X. Denne ideen kan være forskjellige måter generalisert til flere variabler forbundet med et system av lineære ligninger. Samtidig blir transformasjonsreglene mer tungvint, beregningene mer komplekse, men hovedideen forblir den samme - du kan sjekke om variablene er lineært relatert ved å studere deres varianser og kovarianser.

Metoder for overlevelsesanalyse. Metoder for overlevelsesanalyse ble opprinnelig utviklet innen medisinsk, biologisk og forsikringsforskning, men ble deretter mye brukt i samfunns- og økonomivitenskapene, så vel som i industrien i ingeniøroppgaver (analyse av pålitelighet og feiltider). Tenk deg at en ny behandling eller et nytt medikament blir studert. Åpenbart er den viktigste og mest objektive egenskapen den gjennomsnittlige levetiden til pasienter fra tidspunktet for innleggelse til klinikken eller den gjennomsnittlige varigheten av remisjon av sykdommen. Standard parametriske og ikke-parametriske metoder kan brukes for å beskrive gjennomsnittlig overlevelsestid eller remisjon. Det er imidlertid et betydelig trekk i de analyserte dataene - det kan være pasienter som overlevde under hele observasjonsperioden, og hos noen av dem er sykdommen fortsatt i remisjon. Det kan også være en gruppe pasienter som kontakten ble tapt med før fullføringen av forsøket (de ble for eksempel overført til andre klinikker). Ved å bruke standardmetoder for å estimere gjennomsnittet, ville denne gruppen pasienter måtte ekskluderes, og dermed miste viktig informasjon som ble samlet inn med vanskeligheter. I tillegg er de fleste av disse pasientene overlevende (restituert) i løpet av den tiden de ble observert, noe som tyder på en ny behandlingsmetode (medikament). Denne typen informasjon, når det ikke er data om forekomsten av hendelsen av interesse for oss, kalles ufullstendig. Hvis det er data om forekomsten av en hendelse av interesse for oss, kalles informasjonen fullstendig. Observasjoner som inneholder ufullstendig informasjon kalles sensurerte observasjoner. Sensurerte observasjoner er typiske når den observerte verdien representerer tiden før en kritisk hendelse inntreffer, og varigheten av observasjonen er begrenset i tid. Bruken av sensurerte observasjoner er spesifisiteten til metoden som vurderes – overlevelsesanalyse. I denne metoden undersøkes de sannsynlige egenskapene til tidsintervallene mellom suksessive forekomster av kritiske hendelser. Denne typen forskning kalles analyse av varighet frem til termineringsøyeblikket, som kan defineres som tidsintervallene mellom starten av observasjonen av objektet og termineringsøyeblikket, hvor objektet slutter å oppfylle egenskapene spesifisert for observasjon. Formålet med forskningen er å bestemme de betingede sannsynlighetene knyttet til varighetene frem til oppsigelsesøyeblikket. Konstruksjonen av levetidstabeller, tilpasning av overlevelsesfordelingen, estimering av overlevelsesfunksjonen ved bruk av Kaplan-Meier-prosedyren er beskrivende metoder for å studere sensurerte data. Noen av de foreslåtte metodene tillater sammenligning av overlevelse i to eller flere grupper. Til slutt inneholder overlevelsesanalyse regresjonsmodeller for å evaluere sammenhenger mellom multivariate kontinuerlige variabler med verdier som ligner levetider.
Generelle modeller for diskriminantanalyse. Hvis betingelsene for anvendelighet av diskriminantanalyse (DA) ikke er oppfylt - uavhengige variabler (prediktorer) må måles i det minste på en intervallskala, deres fordeling må samsvare med normalloven, det er nødvendig å bruke metoden for generelle modeller for diskriminantanalyse (GDA). Metoden heter det fordi den bruker den generelle lineære modellen (GLM) for å analysere diskriminantfunksjonene. I denne modulen behandles diskriminantfunksjonsanalyse som en generell multivariat lineær modell der den kategoriske avhengige variabelen (responsen) er representert av vektorer med koder som angir ulike grupper for hver observasjon. ODA-metoden har en rekke betydelige fordeler fremfor klassisk diskriminantanalyse. For eksempel er det ingen begrensninger på typen prediktor som brukes (kategorisk eller kontinuerlig) eller på typen modell som defineres, trinnvis valg av prediktorer og valg av den beste undergruppen av prediktorer er mulig hvis det er et kryssvalideringsutvalg i datafilen kan utvalget av det beste undersettet av prediktorer baseres på feilklassifisering av aksjer for kryssvalideringsprøver osv.

Tidsserier. Tidsserier er det mest intensivt utviklende, lovende området innen matematisk statistikk. En tidsserie (dynamisk) er en sekvens av observasjoner av en viss attributt X (tilfeldig variabel) ved påfølgende ekvidistante øyeblikk t. Individuelle observasjoner kalles nivåer av serien og er betegnet med xt, t = 1, ..., n. Når du studerer en tidsserie, skilles flere komponenter ut:
x t \u003d u t + y t + c t + e t, t \u003d 1, ..., n,
hvor u t er en trend, en jevnt skiftende komponent som beskriver nettoeffekten av langsiktige faktorer (befolkningsnedgang, inntektsnedgang, etc.); - sesongmessig komponent, som gjenspeiler frekvensen av prosesser over en ikke veldig lang periode (dag, uke, måned, etc.); сt er en syklisk komponent som gjenspeiler frekvensen av prosesser over lange tidsperioder over ett år; t er en tilfeldig komponent som gjenspeiler påvirkningen av tilfeldige faktorer som ikke kan gjøres rede for og registreres. De tre første komponentene er deterministiske komponenter. Den tilfeldige komponenten dannes som et resultat av superposisjonen av et stort antall eksterne faktorer, som hver individuelt har en ubetydelig effekt på endringen i verdiene til attributten X. Analyse og studie av tidsserien lar oss bygge modeller for å forutsi verdiene til attributtet X for fremtiden, hvis sekvensen av observasjoner i fortiden er kjent.

Nevrale nettverk. Nevrale nettverk er et datasystem, hvis arkitektur er analog med konstruksjonen av nervevev fra nevroner. Nevronene i det laveste laget leveres med verdiene til inngangsparametrene, på grunnlag av hvilke visse beslutninger må tas. For eksempel, i samsvar med verdiene til pasientens kliniske og laboratorieparametere, er det nødvendig å tilskrive ham til en eller annen gruppe i henhold til alvorlighetsgraden av sykdommen. Disse verdiene oppfattes av nettverket som signaler som overføres til neste lag, svekkes eller forsterkes avhengig av de numeriske verdiene (vektene) som er tildelt de interneuronale forbindelsene. Som et resultat genereres en viss verdi ved utgangen av nevronen til det øvre laget, som betraktes som en respons - responsen til hele nettverket på inngangsparameterne. For at nettverket skal fungere, må det være "trent" (trent) på data som verdiene til inngangsparametrene og de riktige svarene på dem er kjent for. Læring består i å velge vekten av interneuronale forbindelser som gir de nærmeste svarene på de kjente riktige svarene. Nevrale nettverk kan brukes til å klassifisere observasjoner.

Eksperimentplanlegging. Kunsten å arrangere observasjoner i en bestemt rekkefølge eller gjennomføre spesielt planlagte kontroller for å utnytte mulighetene til disse metodene fullt ut er innholdet i faget «eksperimentell design». For tiden er eksperimentelle metoder mye brukt både innen vitenskap og i ulike felt av praktisk aktivitet. Vanligvis er hovedmålet med vitenskapelig forskning å vise den statistiske signifikansen av effekten av en bestemt faktor på den avhengige variabelen som studeres. Som regel er hovedmålet med å planlegge eksperimenter å trekke ut den maksimale mengden objektiv informasjon om påvirkningen av faktorene som studeres på indikatoren (avhengig variabel) av interesse for forskeren ved å bruke det minst mulige antallet dyre observasjoner. Dessverre blir det i praksis i de fleste tilfeller ikke gitt tilstrekkelig oppmerksomhet til forskningsplanlegging. De samler inn data (så mye de kan samle inn), og deretter utfører de statistisk bearbeiding og analyse. Men riktig utført statistisk analyse alene er ikke tilstrekkelig for å oppnå vitenskapelig validitet, siden kvaliteten på all informasjon innhentet fra dataanalyse avhenger av kvaliteten på selve dataene. Derfor finner utformingen av eksperimenter alt større applikasjon i anvendt forskning. Formålet med eksperimentelle planleggingsmetoder er å studere påvirkningen av visse faktorer på prosessen som studeres og å søke etter optimale nivåer faktorer som bestemmer det nødvendige flytnivået for denne prosessen.

Kvalitetskontrollkort. Under forholdene i den moderne verden er problemet med kvaliteten på ikke bare produserte produkter, men også tjenestene som tilbys til befolkningen ekstremt relevant. Velferden til ethvert firma, organisasjon eller institusjon avhenger i stor grad av den vellykkede løsningen av dette viktige problemet. Kvaliteten på produkter og tjenester dannes i prosessen med vitenskapelig forskning, design og teknologisk utvikling, og sikres av en god organisering av produksjon og tjenester. Men produksjon av produkter og levering av tjenester, uavhengig av deres type, er alltid forbundet med en viss variasjon i produksjons- og leveringsbetingelsene. Dette fører til en viss variasjon i egenskapene til kvaliteten deres. Derfor er spørsmålene om utvikling av kvalitetskontrollmetoder som vil tillate rettidig oppdagelse av tegn på brudd på den teknologiske prosessen eller levering av tjenester relevante. Men for å oppnå og opprettholde høy level kvalitet som tilfredsstiller forbrukeren, det trengs metoder som ikke er rettet mot å eliminere defekter i ferdige produkter og inkonsekvenser i tjenester, men å forhindre og forutsi årsakene til at de oppstår. Et kontrolldiagram er et verktøy som lar deg spore fremdriften til en prosess og påvirke den (ved hjelp av passende tilbakemeldinger), slik at den ikke avviker fra kravene til prosessen. Kvalitetskontrollkartverktøyet benytter i stor grad statistiske metoder basert på sannsynlighetsteori og matematisk statistikk. Bruken av statistiske metoder gjør det mulig, med begrensede volumer av analyserte produkter, å bedømme kvaliteten på produktene med en gitt grad av nøyaktighet og pålitelighet. Gir prognoser, optimal håndtering av kvalitetsproblemer, aksept av korrekt ledelsesbeslutninger ikke på grunnlag av intuisjon, men ved hjelp av vitenskapelige studier og identifisering av mønstre i de akkumulerte matrisene av numerisk informasjon. />/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>