Overview

ltwords yra lietuviškų žodžių duomenų bazė ir įrankių rinkinys, padedantis pildyti ir nuskaityti duomenų bazėje esančius žodžius.

Duomenų bazėje saugoma morfologinė ir dalis leksinės (sinonimai, antonimai, homonimai) informacijos.

Licencija

Žodžių duomenų bazė (visi duomenys esantys db kataloge), platinami pagal Open Database License (ODbL) licenciją. Šios licencijos kopiją galite rasti licences/odbl-10.txt faile.

Įrankiai skirti darbui su duomenų baze platiname pagal LGPL licenciją. Šios licencijos kopiją rasite licences/gpl.txt ir licences/lgpl-3.0.txt failuose.

Duomenų bazės formatas

Žodžiai duomenų bazėje yra išsaugoti paprasto teksto forma, pats formatas orientuotas į žodžių redagavimą naudojantis, bet kuriuo teksto redaktoriumi, kuris palaiko UTF-8 koduotę ir UNIX tipo eilutės pabaigos simbolius.

Tai reiškia, kad duomenį bazės formatas pritaikytas duomenų bazės kūrimui, o ne nuskaitymo greičiui ar aukšto lygio duomenų kompaktiškumui išlaikyti.

Visi žodžiai saugomi db kataloge ir jie yra sugrupuoti į atskirus failus, kurių pavadinimas sudarytas iš pirmų dviejų normalizuotų žodžio raidžių. Pavyzdžiui, žodis „žmogus“ turi būti saugomas db/zm kataloge. Pirmoji žodžio „žmogus“ raidė yra normalizuota, t.y. lietuviška raidė „ž“ pakeista į lotyniškos raidės atitikmenį.

Toks skaidymas į dviejų raidžių failus naudojamas tam, kad žodžių failai per daug neišsipūstų.

Šiuose dviejų raidžių failuose, kiekvienas žodis aprašomas atskiroje eilutėje tokiu formatu:

<morfologija> <žodis> <leksika>

Realus pavyzdys su žodžiu „žmogus“ ir visomis šio žodžio formomis atrodytų taip:

dVvvb žmogus t=žinduolis
dVvkb žmogaus l=žmogus
dVvnb žmogui l=žmogus
dVvgb žmogų l=žmogus
dVvib žmogumi l=žmogus
dVvtb žmoguje l=žmogus
dVvsb žmogau l=žmogus
dVdvb žmonės l=žmogus
dVdkb žmonių l=žmogus
dVdnb žmonėms l=žmogus
dVdgb žmones l=žmogus
dVdib žmonėmis l=žmogus
dVdtb žmonėse l=žmogus
dVdsb žmonės l=žmogus

Kalbos dalys

d: daiktavardis

0: -

1: giminė

2: skaičius

3: linksnis

b: būdvardis

3: asmuo

1: giminė

2: skaičius

0: linksnis

s: skaitvardis

0: linksnis

i: įvardis

0: linksnis

v: veiksmažodis

0: asmuo

1: laikas

2: nuosakos

3: sangražinė forma

2: skaičius

p: prieveiksmis

P: prielinksnis

j: jungtukas

D: dalelytė

J: jaustukas

I: ištiktukas

Linksniai

v: vardininkas (pagrindinė forma) k: kilmininkas n: naudininkas g: galininkas i: įnagininkas v: vietininkas s: šauksmininkas

Giminės

v: vyriška (pagrindinė forma) m: moteriška b: beasmenė

Skaičiai

a: 1 žodis (pagrindinė forma) b: 2-9 žodžiai c: 10-20 žodžių

Asmenys

a: aš graži (pagrindinė forma) b: tu gražus c: jis,ji gražus

Laikai

a: esamasis rašau b: būtasis kartinis rašiau c: būtasis dažninis rašydavau d: būsimasis rašysiu

Nuosakos

a: tiesioginė rašo b: tariamoji rašytų c: liepiamoji rašyk

Veiksmažodžio forma

a: bendratis rašyti (pagrindinė forma) b: sangražinė forma rašosi

,---------- Kalbos dalis (D: daiktavardis, V: veiksmažodis) | ,-------- Parametras priklausantis nuo kalbos dalies. | | ,------ Parametras priklausantis nuo kalbos dalies. | | | ,---- Parametras priklausantis nuo kalbos dalies. | | | | ,-- Parametras priklausantis nuo kalbos dalies. | | | | | , Parametras priklausantis nuo kalbos dalies. | | | | | | ,------------- žodis | | | | | | | ,------- parametrai | | | | | | | | | | | | | | | | d v v v - - jonas l=jonas t=vardas