Transformer (masinõpe)

Allikas: testwiki
Redaktsioon seisuga 30. august 2024, kell 20:56 kasutajalt imported>Estopedist1 (raaltoimetamine, replaced: <references /> → {{Viited}})
(erin) ←Vanem redaktsioon | Viimane redaktsiooni (erin) | Uuem redaktsioon→ (erin)
Mine navigeerimisribale Mine otsikasti

Transformer on süvaõppe mudel, mis kasutab sisemise tähelepanu mehhanismi, et differentsiaalselt kaaluda eraldi kõigi sisendandmete osatähtsust kontekstis kõigi teiste sisendandmetega.

Seda kasutatakse peamiselt keeletehnoloogias[1] ja arvutinägemises[2].

Transformeri arhitektuuri pakkusid välja 2017. aastal Google Brain uurimisrühm artiklis "Attention Is All You Need"[1]. Nende peamine avastus seisnes selles, et lihtne närvivõrk, mis jätab ära rekurrentsuse ja konvulatsioonid ning kasutab nende asemel ainult sisemise tähelepanu mehhanisme, saab masintõlke ülesannetel paremaid tulemusi ning on rohkem paralleliseeritav, mis vähendab treenimisele kuluvat aega.

Arhitektuur

Sisemine tähelepanu

Tähelepanu mehhanism on transformer närvivõrgu kõige tähtsam osa, sest see vastutab selle eest, et võrk keskenduks väljundvektorit genereerides õigele sisendvektori osale[3]. Näiteks lauses "Pall kukkus naabri aeda, sest poiss lõi seda liiga tugevasti." viitab sõna seda sõnale pall ja mitte sõnale aed. Sisemine tähelepanu loob selle seose pall-seda, mis aitab lauset töödeldes konteksti ja loogilist järjepidavust hoida.

Seosed arvutatakse kõigi kodeerija sisendi sõnade jaoks. Seda tehakse arvutades kolm maatriksi: päringukaalud WQ, võtmekaalud WK ja väärtuskaalud WV. Iga tokeni i jaoks korrutatakse sisendi sõna xi iga kaalumaatriksiga, et saada päringuvektor qi=xiWQ, võtmevektor ki=xiWK ja väärtusvektor vi=xiWV. Seejärel arvutatakse päringu- ja võtmevektorite skalaarkorrutised ehk skoorid; näiteks oleks esimese tokeni esimene skoor q1 ja k1 skalaarkorrutis ning teine skoor q1 ja k2 skalaarkorrutis. Saadud skoorid jagatakse võtmevektori pikkuse ruutjuurega, dk, ning tulemusel kasutatakse normaliseerimiseks softmax funktsiooni.

Tehte saab kokkuvõtvalt kirjutada ühe softmax funktsiooniga maatriksarvutusena A(Q,K,V)=softmax(QKTdk)V [4].

Mitmepealine tähelepanu

Sisemist tähelepanu on edasi arendatud algses artiklis välja käidud "mitmepealise tähelepanuga" (ingl multi-headed attention), mis laiendab mudeli oskust keskenduda erinevatele positsioonidele ning lisab tähelepanukihile mitu representatsioonialamruumi [4]. Üks kolmik maatrikse (WQ,WK,WV) on üks pea ning igal kihil on mitu pead.

Kodeerija

Iga kodeerija koosneb sisemise tähelepanu mehhanismist ja edasisöödu närvivõrgust (FFN). Esimese kodeerija sisemise tähelepanu mehhanism võtab sisse sisendjärjendi koos positsioonilise informatsiooniga ning ülejäänud kodeerijad saavad eelnevast kodeerijast sisendkodeeringu, millega tekitavad kaaluseoste alusel väljundkodeeringu. Seejärel töötleb edasisööduvõrk igat väljundkodeeringut eraldi; tulemus läheb edasi järgmisesse kodeerijasse või dekodeerijasse.

Kodeerija on kahesuunaline ehk tähelepanu saab suunata nii praegusest varasematele kui hilisematele tokenitele.

Dekodeerija

Dekodeerija kasutab lisaks sisemisele tähelepanule ja edasisööduvõrgule ka kodeerija-dekodeerija tähelepanu kihti, mis soodustab õigele sisendjärjendi kohale keskendumist.

Dekodeerijas on tähelepanu suunatud vaid varasematele tokenitele.

Kasutusalad

Transformer arhitektuur on teinud suure läbilöögi keeletehnoloogias, asendades rekurrentseid närvivõrke näiteks masintõlkes ja aegridade prognoosis [5]. Laialdast populaarsust on leidnud mitmed eeltreenitud ja avalikusele kättesaadavad keelemudelid, näiteks OpenAI GPT-2, GPT-3 ning ChatGPT või BERT ja RoBERTa. Need mudelid on näidanud lootustandvaid tulemusi mitmetel keeletehnoloogilistel ülesannetel, näiteks valdkondades:

Teegid

Transformer mudel on implementeeritud TensorFlow Tensor2Tensor teegis ja Harvardi keeletehnoloogia uurimisrühma versioonina PyTorchis.

Viited

Mall:Viited