Bootstrap (statistika)

Allikas: testwiki
Mine navigeerimisribale Mine otsikasti

Bootstrap-meetod (ingl bootstrap method) on arvutusmahukas statistiline meetod, mis põhineb taasvalikul. Bootstrapi abil saab hinnata mingit üldkogumi parameetrit (näiteks dispersiooni, keskväärtust või asümmeetriakordajat) või leida selle usaldusvahemikku.[1][2] See meetod võimaldab hinnata peaaegu kõikide statistiliste parameetrite jaotust kasutades juhuslikku taasvalikut tagasipanekuga olemasolevatel andmetel.[3][4] Võimalik on eristada parameetrilist ning mitteparameetrilist bootstrappi.

Levinum kahest variandist on mitteparameetriline bootstrap selle matemaatiliselt lihtsa sisu tõttu. Nagu nimi viitab, ei tehta mitteparameetrilise bootstrapi puhul suuri eeldusi jaotuse (ja selle parameetrite) kohta. Eeldatakse vaid seda, et üldkogum on sama jaotusega nagu olemasolevad andmed.[5]

Parameetrilise bootstrapi puhul eeldatakse, et valim on mingist jaotusest (näiteks normaaljaotusest). Parameetrilist bootstrappi eelistatakse tavaliselt juhul, kui taustateadmistele tuginedes saab teha eelduse valimi ja üldkogumi jaotuse kohta. Samuti on parameetriline bootstrap abiks siis, kui andmeid on väga vähe (alla 10 andmepunkti).[5]

Bootstrap-meetodi idee

Bootstrap põhineb ideel, et valimi andmete põhjal saab teha järeldusi üldkogumi parameetri θ käitumise kohta, kui valimi andmeid piisavalt palju juhuslikult taasvalida.

Tavaliselt ei teata, mis jaotusest andmed pärinevad ja seega millised on õiged eeldused andmete jaotuse kohta. Seetõttu on tänapäeval küllaltki populaarsed meetodid, mis võimaldavad vähemalt ligikaudselt hinnata huvipakkuvaid suuruseid ainult olemasolevate andmete põhjal. Selliseid meetodeid nimetatakse taasvaliku meetoditeks.[6]

Üldjuhul kasutatakse bootstrap-meetodit siis, kui on teada vaid andmete empiiriline jaotus ning õige jaotus on tundmatu. Kui õige jaotus oleks teada, siis saaks probleemile (nt keskväärtuse/standardhälbe leidmisele) ka analüütiliselt läheneda.[7] Paraku on aga keerulisemate probleemide puhul analüütiline lähenemine tihtipeale võimalik ainult siis, kui teha ebareaalseid või tõestamata eeldusi. Seega keerulisemaid probleeme on mõistlik lahendada simuleerimismeetodeid kasutades.[8]

Bootstrapi algoritmi kirjeldus

Oletame, et tahame hinnata üldkogumi keskväärtust. Olgu meil valim (andmestik) X, mille elemendid on x1,x2,...,xn. Bootstrap meetod põhineb taasvalikul, mis seisneb selles, et konstrueeritakse uus valim X, kuhu võetakse juhuslikult tagasipanekuga uusi elemente algsest valimist X. Seejärel leitakse valimi X keskväärtus. Seda protsessi korratakse väga palju kordi (minimaalselt N=1000 kordust, aga soovituslik oleks vähemalt N=10000 kordust) ning tulemus keskmistatakse. Selline teguviis annab meile aimduse sellest, kuidas üldkogumi parameeter käitub (nt mis vahemikku võiks parameeter jääda ja mis on parameetri standardhälve).

Sarnase algoritmiga saab ka leida muud infot üldkogumi keskväärtuse kohta. 95% usaldusintervalli üldkogumi keskväärtusele saame leida, kui võtame kõikidest valimi N keskväärtusest 0,025 ja 0,975 kvantiili väärtuse vastavalt alumiseks ning ülemiseks usalduspiiriks.

Bootstrapi vajalikkusest ja ajaloost

Bootstrap-meetodit tutvustas esimesena Ameerika statistik Bradley Efron 1979. aastal ilmunud artiklis "Bootstrap Methods: Another Look at the Jackknife". Bootstrap-meetodi ("saapapaela meetodi") nimi pärineb Bradley Efronilt: "Pulling oneself up by one's bootstraps", mis peaks ilmestama, et hakkama tuleb saada vaid omaenda vahenditega (andmetega).[8]

Viited

Mall:Viited

  1. Viitamistõrge: Vigane <ref>-silt. Viide nimega :0 on ilma tekstita.
  2. Viitamistõrge: Vigane <ref>-silt. Viide nimega LmNhx on ilma tekstita.
  3. Viitamistõrge: Vigane <ref>-silt. Viide nimega Varian on ilma tekstita.
  4. Viitamistõrge: Vigane <ref>-silt. Viide nimega WwJUk on ilma tekstita.
  5. 5,0 5,1 Viitamistõrge: Vigane <ref>-silt. Viide nimega :1 on ilma tekstita.
  6. Viitamistõrge: Vigane <ref>-silt. Viide nimega jKYce on ilma tekstita.
  7. Viitamistõrge: Vigane <ref>-silt. Viide nimega uJ3IL on ilma tekstita.
  8. 8,0 8,1 Viitamistõrge: Vigane <ref>-silt. Viide nimega :2 on ilma tekstita.