Vähimruutude meetodi regulariseerimine
Vähimruutude meetodi regulariseerimine on vähimruutude meetodi lahendamine, kasutades regularisatsiooni, mis aitab kindlaid probleeme kitsendada, tehes nende lahendamise lihtsamaks ja täpsemaks[1].
Regularisatsiooni eesmärk on lihtsustada regressioonimudelit, kahandades tunnuste kaale, ning vähendada sellega ülesobitamise riski[1].
Kui vähimruutude valemi järgi on tunnuste kaalude vektor leitav valemiga , kus – kaalude vektor, – märgendite vektor, – tunnuste maatriks[1], siis regularisatsiooni puhul lisatakse kaaludele mingisugune penalti või karistus, mis aitaks erinevusi ühtlustada[2] ja kaale minimeerida. Kõige enim kasutatud regularisatsioonimeetodid on kant- ja lassoregressioon[3].
Kantregressioon
Kantregressioon on tuntud ka kui Ridge'i regressioon, Tikhonovi regularisatsioon või L2-regularisatsioon.
Selle meetodi eesmärk on kõik kaalud ühtlaselt minimeerida ning nullile lähendada, kuid mitte täielikult nulliks muuta. Seega ei saa kantregressiooni tulemusena tekkiv mudel ennustamiseks kasutada ainult mingit kindlat osa tunnustest, kuna kõigil tunnustel on mingi nullist suurem kaal[4].
Kasutamine
Kantregressiooni kasutamise valem on
, kus on regularisatsiooniparameeter ja on kaalude vektori norm ruudus[1].
Suletud süsteemi lahendus
Meetodile leidub ka suletud süsteemi lahendus [1].
Lassoregressioon
Lassoregressioon on tuntud ka kui L1-regularisatsioon.
Lassoregressiooni meetod üritab kõikide ebatähtsate tunnuste kaalud nulliks muuta. Juhul, kui tunnuste vahel on tugevad seosed (kollineaarsed tunnused) valib lassoregressioon seotud tunnuste vahelt juhuslikult ühe, mille kaalu ta tõstab, ning muudab ülejäänud nulliks[1].
Kasutamine
Lassoregressiooni kasutamise valem on
, kus on regularisatsiooniparameeter ja on kaalude absoluutväärtuste summa[1].
Suletud süsteemi lahendus
Lassoregressiooni meetodil puudub suletud süsteemi lahendus.
Lasso- ja kantregressiooni erinevused
Kõige tähtsam erinevus lasso- ja kantregressiooni meetodi vahel on nullkaalude arv: lassoregressioon sunnib kõigi vähegi ebatähtsate tunnuste kaalud nulliks, kuid kantregressiooni tulemusel saadud kaalud on küll väiksed, kuid mitte nullid[5]. Seega on lassoregressiooni tulemus lihtsam mudel, mis ennustamiseks kasutatakse ainult mingit kogutunnuste hulga osahulka[6]. See aga ei tähenda, et lassoregressioon oleks iga probleemi jaoks parim lahendus. Lassoregressioon töötab enamjaolt paremini ülesannetes, kus ainult väike osa tunnuste reaalsetest kaaludest on suurem kui null ehk märgendit mõjutab ainult mingi väike osa kogutunnustest. Kantregressioon töötab aga paremini ülesannetes, kus on palju tunnuseid, mis kõik mõjutavad ennustust vähemal või suuremal määral[5].
Regularisatsiooni parameeter λ
Kui parameetri väärtus on 0, siis kaalude regularisatsiooni ei toimu ja mudel arvutatakse välja tavalise vähimruutude meetodiga.
Mida suurem on lambda väärtus, seda rohkem karistatakse suuremaid kaale ning seda väiksemad on kõigi tunnuste kaalud[3].
Kuna erinevate ülesannete lähteandmed on erinevad, ei leidu ühtset regularisatsiooni parameetri väärtust, mis igal juhul annaks parima tulemuse. Parima võimaliku lambda väärtuse saab välja arvutada eri viisil, näiteks ristvalideerimise, erinevuse printsiibi või L-kurvi meetodiga[7].