Transformer (masinõpe)
Transformer on süvaõppe mudel, mis kasutab sisemise tähelepanu mehhanismi, et differentsiaalselt kaaluda eraldi kõigi sisendandmete osatähtsust kontekstis kõigi teiste sisendandmetega.
Seda kasutatakse peamiselt keeletehnoloogias[1] ja arvutinägemises[2].
Transformeri arhitektuuri pakkusid välja 2017. aastal Google Brain uurimisrühm artiklis "Attention Is All You Need"[1]. Nende peamine avastus seisnes selles, et lihtne närvivõrk, mis jätab ära rekurrentsuse ja konvulatsioonid ning kasutab nende asemel ainult sisemise tähelepanu mehhanisme, saab masintõlke ülesannetel paremaid tulemusi ning on rohkem paralleliseeritav, mis vähendab treenimisele kuluvat aega.
Arhitektuur
Sisemine tähelepanu
Tähelepanu mehhanism on transformer närvivõrgu kõige tähtsam osa, sest see vastutab selle eest, et võrk keskenduks väljundvektorit genereerides õigele sisendvektori osale[3]. Näiteks lauses "Pall kukkus naabri aeda, sest poiss lõi seda liiga tugevasti." viitab sõna seda sõnale pall ja mitte sõnale aed. Sisemine tähelepanu loob selle seose pall-seda, mis aitab lauset töödeldes konteksti ja loogilist järjepidavust hoida.
Seosed arvutatakse kõigi kodeerija sisendi sõnade jaoks. Seda tehakse arvutades kolm maatriksi: päringukaalud , võtmekaalud ja väärtuskaalud . Iga tokeni jaoks korrutatakse sisendi sõna iga kaalumaatriksiga, et saada päringuvektor , võtmevektor ja väärtusvektor . Seejärel arvutatakse päringu- ja võtmevektorite skalaarkorrutised ehk skoorid; näiteks oleks esimese tokeni esimene skoor ja skalaarkorrutis ning teine skoor ja skalaarkorrutis. Saadud skoorid jagatakse võtmevektori pikkuse ruutjuurega, , ning tulemusel kasutatakse normaliseerimiseks softmax funktsiooni.
Tehte saab kokkuvõtvalt kirjutada ühe softmax funktsiooniga maatriksarvutusena [4].
Mitmepealine tähelepanu
Sisemist tähelepanu on edasi arendatud algses artiklis välja käidud "mitmepealise tähelepanuga" (ingl multi-headed attention), mis laiendab mudeli oskust keskenduda erinevatele positsioonidele ning lisab tähelepanukihile mitu representatsioonialamruumi [4]. Üks kolmik maatrikse on üks pea ning igal kihil on mitu pead.
Kodeerija
Iga kodeerija koosneb sisemise tähelepanu mehhanismist ja edasisöödu närvivõrgust (FFN). Esimese kodeerija sisemise tähelepanu mehhanism võtab sisse sisendjärjendi koos positsioonilise informatsiooniga ning ülejäänud kodeerijad saavad eelnevast kodeerijast sisendkodeeringu, millega tekitavad kaaluseoste alusel väljundkodeeringu. Seejärel töötleb edasisööduvõrk igat väljundkodeeringut eraldi; tulemus läheb edasi järgmisesse kodeerijasse või dekodeerijasse.
Kodeerija on kahesuunaline ehk tähelepanu saab suunata nii praegusest varasematele kui hilisematele tokenitele.
Dekodeerija
Dekodeerija kasutab lisaks sisemisele tähelepanule ja edasisööduvõrgule ka kodeerija-dekodeerija tähelepanu kihti, mis soodustab õigele sisendjärjendi kohale keskendumist.
Dekodeerijas on tähelepanu suunatud vaid varasematele tokenitele.
Kasutusalad
Transformer arhitektuur on teinud suure läbilöögi keeletehnoloogias, asendades rekurrentseid närvivõrke näiteks masintõlkes ja aegridade prognoosis [5]. Laialdast populaarsust on leidnud mitmed eeltreenitud ja avalikusele kättesaadavad keelemudelid, näiteks OpenAI GPT-2, GPT-3 ning ChatGPT või BERT ja RoBERTa. Need mudelid on näidanud lootustandvaid tulemusi mitmetel keeletehnoloogilistel ülesannetel, näiteks valdkondades:
- masintõlge
- juturobotid
- automaatsed kokkuvõtted[6]
- DNA ja valkude järjestuste analüüs[7]
- videoklassifitseerimine[8]
Teegid
Transformer mudel on implementeeritud TensorFlow Tensor2Tensor teegis ja Harvardi keeletehnoloogia uurimisrühma versioonina PyTorchis.