Formaalne grammatika

Allikas: testwiki
Mine navigeerimisribale Mine otsikasti

Mall:Toimeta

Formaalseks grammatikaks nimetatakse informaatikas ja keeleteaduses formaalse keele täpset kirjeldust, mis tähendab keele kuuluvate stringide (sõne (informaatika)) määratlemist. Formaalses grammatikas on kaks põhilist kategooriat. Esimene neist, generatiivsed grammatikad tegeleb reeglitega kuidas keelde kuuluvaid stringe genereerida. Teine, analüütilised grammatikad tegeleb reeglitega kuidas on võimalik stringe analüüsida, et aru saada, kas see kuulub keelde. Lühidalt, analüütiline grammatika kirjeldab kuidas ära tunda stringe mis kuuluvad mingisse hulka, samal ajal kui generatiivne grammatika kirjeldab kuidas kirjutada ainult neid stringe, mis kuuluvad mingisse hulka.

Generatiivsed grammatikad

Mall:Vaata Generatiivne grammatika koosneb reeglitest, mille abil konstrueerida stringe. Selleks, et genereerida keelde kuuluvat stringi tuleb alustada grammatika algussümbolist ning seejärel rakendada teisi sobivaid reegleid. Reegleid võib kasutada suvalises järjekorras ja suvaline arv kordi. Reeglite rakendamise tulemusena saadakse string, mis kuulub grammatikaga määratud keelde. Osad grammatikad võimaldavad saada sama stringi mitmel eri viisil reegleid kohaldades, neid grammatikaid nimetatakse mitmeseks. Grammatikat, mille abil saab kõiki stringe ainult ühtviisi reegleid rakendades genereerida nimetatakse üheseks.

Näiteks võtame keele, milles on kaks tähte - a ja b ning 2 reeglit:

1. SaSb
2. Sba

Alustame S-st mis on algussümbol. Valides esimese reegli, asendame me S-i aSb-ga ja saame stringi aSb. Valides reegli 1 veel üks kord saame stringi aaSbb ja seejärel rakendades reeglit 2 saame stringi aababb. Lühidalt kokkuvõttes oli tuletuskäik järgmine: SaSbaaSbbaababb. Grammatikaga määratud keeleks on kõikide nende stringide hulk mida antud reeglite abil on võimalik genereerida: {ba,abab,aababb,aaababbb,...}.

Formaalne definitsioon

Noam Chomsky pakkus 1950 aastatel välja formaalse grammatika definitsiooni. Grammatika G koosneb 4 komponendist:

  • Mitteterminalide lõplikust hulgast N
  • Terminalide lõplikust hulgast Σ, millel puudub ühisosa mitteterminalide hulgaga.
  • Produktsioonireeglite lõplikust hulgast P, igaüks kujul
(ΣN)*N(ΣN)*(ΣN)*
Lahtiseletatuna, iga produktsioonireegel seob ühe stringi teisega, vasakul pool peab olema vähemalt üks sümbol mitteterminalide hulgast. Juhul kui paremal pool on tühi string (string, milles ei ole ühtegi sümbolit), siis kasutatakse selle väljanäitamiseks sümbolit epsilon (ϵ).
  • Algussümbolist S, mis sisaldub hulgas N
SN

Tavaliselt viidatakse grammatikale kui nelikule: G=(N,Σ,P,S). Formaalse grammatika G poolt määratud keel (𝑳(G)) on defineeritud kui kõikide nende stringide hulk, mis koosnevad ainult sümbolitest hulgast Σ ja mida on võimalik genereerida alustades algussümbolist S ja seejärel rakendades produktsioone hulgast P kuni sõnad koosnevad ainult terminalidest (ei leidu sümboleid mitteterminalide hulgast N).

Näide

Nende näidete jaoks on formaalsete keelte spetsifitseerimiseks kasutatud set-builder notationi.

Olgu meil grammatika G, kus N={S,B}, Σ={a,b,c}, S on algussümbol ja P sisaldab järgmisi produktsioonireegleid:

1. SaBSc
2. Sabc
3. BaaB
4. Bbbb

Mõned näited keelde 𝑳(G) kuuluvate stringide tuletamisest oleks:

  • 𝑺2𝒂𝒃𝒄
  • 𝑺1𝒂𝑩𝑺𝒄2aB𝒂𝒃𝒄c3a𝒂𝑩bcc4aa𝒃𝒃cc
  • 𝑺1𝒂𝑩𝑺𝒄1aB𝒂𝑩𝑺𝒄c2aBaB𝒂𝒃𝒄cc3a𝒂𝑩Babccc3aaB𝒂𝑩bccc3aa𝒂𝑩Bbccc4aaaB𝒃𝒃ccc4aaa𝒃𝒃bccc
(Selgitus: loe LiR kui "L genereerib R-i kasutades selleks produktsiooni number i" ja genereeritud osa näidatakse iga kord rasvaselt)

See grammatika defineerib keele L={anbncn|n1}, kus an tähendab n arvust a sümbolitest koosnevat stringi. Seega, see keel sisaldab stringe, milles on võrdne nullist suurem arv a, b ja c stinge ning need sümbolid asuvad samas järjekorras.

Chomsky hierarhia

Analüütilised grammatikad

Kirjandus

  • Jaak Henno. Formaalsed keeled, grammatikad ja translaatorid 2006. TTÜ Kirjastus. ISBN 9985-59-627-7.