Üldistatud lineaarne mudel

Allikas: testwiki
Mine navigeerimisribale Mine otsikasti
Logistiline regressioon on üks näide üldistatud lineaarsest mudelist. Tunnuste komplekti X kasutatakse Y prognoosimiseks, kusjuures et siduda X ja Y omavahel, tuleb Y teisendada [0...1] skaalale logit-seosefunktsiooniga. Pildil x- ja y-teljed on kujutatud vastupidi tavapärasele tähistusele.

Üldistatud lineaarne mudel (inglise keeles generalized linear model, lühend GLM) on analüüsimeetod statistikas, mis võimaldab mingit uuritavat tunnust Y prognoosida teiste, sõltumatute tunnuste X abil, kusjuures erinevalt lineaarregressioonist võimaldab üldistatud lineaarne mudel sobitada lineaarse mudeli ka mittelineaarse seose peale. GLM sobitab lineaarse mudeli uuritavale seosele seosefunktsiooni abil.[1]

Olemus

Lihtne lineaarregressioon hindab uuritava tunnuse Y väärtust, kui see on lineaarkombinatsioon sõltumatu tunnuse X väärtustest (vaadeldud väärtused). Sellisel juhul Y allub normaaljaotusele.[2] Olgu meil näiteks lihtne lineaarne mudel, mis hindab õhutemperatuuri põhjal rannas olevate inimeste arvu. Iga 10 °C muutus õhutemperatuuris toob kaasa 1000-pealise muutuse rannasviibijate arvus. Kui on rand, kus inimesi on alguses 50, siis 10 °C languse korral annaks selline lineaarne mudel rannasviibijate arvu hinnanguks võimatu –950 inimest.

Üldistatud lineaarne mudel võimaldab kahte tunnust omavahel siduda nii, et uuritav tunnus Y allub mingisugusele juhuslikule jaotusele, mis ei pea olema normaaljaotus.[2] Meie näite kohaselt tähendaks see, et õhutemperatuuri X muutudes rannasviibijate arv Y võib muutuda mittelineaarselt.

Jätkates sama näidet, olgu meil nüüd mingisugune üldistatud lineaarne mudel. 10-kraadise õhutemperatuuri languse korral selline mudel ei anna meile hinnanguks mitte –950 aktiivset rannasviibijat, vaid esialgsest 50 inimesest poole vähem ehk 25 rannasviibijat. Samas esialgse temperatuuriga võrreldes 10-kraadise tõusu korral oleks rannas jällegi 1000 inimest rohkem. On näha, et X konstantse muutuse korral Y muutub mittelineaarselt. Selles konkreetses näites Y allub Poissoni jaotusele.

Üldistatud lineaarne mudel võimaldab sellist mittelineaarset seost esitada lineaarsel kujul, teisisõnu Y|X oleks justkui lineaarne. Sellist teisendamist üldistatud lineaarses mudelis võimaldab mudelis kasutatav seosefunktisoon (sellest täpsemalt allpool).

Ülevaade

Üldistatud lineaarne mudel eeldab, et uuritav tunnus Y allub mingisugusele jaotusele, mis kuulub eksponentjaotuste perre (nt normaaljaotus, eksponentjaotus, Bernoulli jaotus, Poissoni jaotus).[3] Sellise jaotuse keskväärtus μ sõltub sõltumatu tunnuse X väärtustest.

𝔼(Y|X)=μ=g1(Xβ), kus:

  • 𝔼(Y|X) on Y keskväärtus X korral;
  • g on seosefunktsioon;
  • Xβ on lineaarkombinatsioon tundmatutest parameetritest β.

GLM-i eesmärk on hinnata suurust μ ehk keskväärtust. Parameetri β hindamiseks kasutatakse üldiselt suurima tõepära meetodit, kvaasitõepära või Bayesi meetodeid.

Mudeli komponendid

Üldistatud lineaarne mudel koosneb kolmest komponendist.[4][5]

  1. Juhuslik komponent (random component). Määrab uuritava tunnuse (Y) jaotuse, kui Y sõltub X-st (tähistatakse kui Y|X). See jaotus kuulub eksponentsjaotuste perre. Y|X jaotuse keskväärtus on μi, mille hindamine ongi mudeli eesmärk.
  2. Süsteemne komponent (systematic component). Määrab mudeli sõltumatute tunnuste X hulga, kasutades selleks lineaarkombinatsiooni ηi=xiTβ=x1β1+...+xpβp.
  3. Seosefunktsioon (link function). Seosefunktsioon g on funktsioon, mis seob juhusliku ja süsteemse komponendi, täpsemini Y|X keskväärtuse μi ja ηi, moodustades seeläbi lineaarfunktsiooni: g(μi)=ηi.

Seosefunktsioon

Sõltuvalt uuritavate andmete olemusest, on valida mitme seosefunktsiooni vahel.

Tuntud teoreetilised jaotused ja neile vastavad kanoonilised seosefunktsioonid
Jaotus Kasutusala Seosefunktsiooni nimi Seosefunktsioon
Normaaljaotus Lineaarkasvule alluvad andmed. Samasusteisendus Xβ=μ
Poisson Kindlas aja- või ruumiühikus toimunud sündmuste arv. log Xβ=ln(μ)
Bernoulli Üksiku jah/ei sündmuse tulem. logit Xβ=ln(μ1μ)
Binoom "Jah" sündmuste arv kõikides toimunud jah/ei sündmustes. logit Xβ=ln(μnμ)

Vaata ka

Viited