Pagal Aprašą remiama veikla – kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra (projektas „Kalbos paveldo transformacija ir lietuvių kalbos erdvinių duomenų išteklių sukūrimas“).
Projekto komunikacijos ir informavimo veiksmai atliekami vadovaujantis Projektų administravimo ir finansavimo taisyklių VIII skyriaus „Kiti projektų reikalavimai“ pirmojo skirsnio „Informavimas apie projektą ir komunikaciją“ nuostatomis.
Privalomi techniniai reikalavimai projektui, kurį sudaro lietuvių kalbos paveldo duomenynas ir Lietuvių kalbos erdvinių išteklių duomenynas:
1. Privalomi techniniai reikalavimai bendrajam lietuvių kalbos paveldo duomenynui:
1.1. Apimtis turi siekti ne mažiau kaip 500 tūkst. vienetų lietuvių kalbos leksikografijos, tarmių, vardyno ir kt. medžiagos objektų (kalbos duomenų kortelių).
1.2. Reikalavimai išteklių kūrimo priemonėms:
1.2.1. Metaduomenų tvarkymo modulis turi leisti valdyti metaduomenų laukus atsižvelgiant į konkretaus šaltinio poreikius (pvz., sukurti naujus laukus, keisti hierarchiją).
1.2.2. Išorės sistemos ar naudotojai turi turėti prieigą prie duomenų per saityno tarnybą.
1.2.3. Išteklių duomenis turi būti galima parsisiųsti susiaurinant duomenų imtį, pasirenkant tik norimus metaduomenų laukus, taip siekiant palengvinti jų panaudojimą dirbtiniam intelektui.
1.2.4. Vietovės komponentę turinčių išteklių tvarkymo priemonės turi būti integruotos su GIS technologijos įrankiais.
1.3. Reikalavimai skaitmeninimo procesui:
1.3.1. Objektų pavertimas į skaitmeninį formatą turi būti vykdomas vadovaujantis Lietuvos Nacionalinės Martyno Mažvydo bibliotekos parengta Kultūros paveldo atrankos ir skaitmeninimo metodika.
1.3.2. Skaitmeninamų kalbos paveldo objektų metaduomenys privalo apimti bendruosius ir specialiuosius (lingvistinius) metaduomenis.
1.4. Reikalavimai lietuvių kalbos paveldo duomenyno turiniui:
1.4.1. Duomenyną turi sudaryti duomenų rinkiniai, kurie turi didelę mokslinę, istorinę, kultūrinę ir šviečiamąją vertę: autentiški, ne vienu laikotarpiu iš įvairių Lietuvos vietovių ar rašytinių šaltinių surinkti leksikos, vardyno, tarmių duomenys, kuriuose atsispindi skirtingų laikotarpių ir atskirų regionų lingvistinės (fonetinės, morfologinės, leksinės, sintaksinės), geografinės, etnologinės, kultūrinės, istorinės ypatybės ar kt.
1.4.2. Duomenynui atrinkti lietuvių kalbos paveldo objektai (kalbos duomenų kortelės) turi būti paversti į skaitmeninį formatą ir parengti jų metaduomenys.
1.5. Kokybės užtikrinimo reikalavimai – skaitmeninimo procesas turi būti suskaidytas į etapus taip, kad būtų sumažinta žmogiškųjų klaidų tikimybė – kiekvieną etapą turi atlikti skirtingi darbuotojai, kad vėlesnį etapą vykdantys asmenys galėtų patikrinti ankstesnio etapo kokybę, būtų vadovaujamasi „keturių akių“ principu.
2. Privalomi techniniai reikalavimai lietuvių kalbos erdvinių išteklių duomenynui ir jo funkcionavimą užtikrinančiai geoerdvinės informacijos infrastruktūrai:
2.1. Pagrindinis reikalavimas lietuvių kalbos erdvinių išteklių duomenyno turiniui – bendra lietuvių kalbos erdvinių išteklių duomenyno apimtis – ne mažiau, kaip 215 erdvinių duomenų rinkinių ir sluoksnių, panaudojant ir kalbos paveldo, ir naujausią kalbinę medžiagą. Iš jų:
2.1.1. Kalbinių ypatybių pasiskirstymo Lietuvos teritorijoje skaitmeniniai internetiniai žemėlapiai, sudaryti kalbos paveldo duomenų pagrindu, turi apimti ne mažiau kaip 180 erdvinių duomenų rinkinių: a) skenuotų ir geoorientuotų kalbinių ypatybių paplitimo žemėlapių, b) rekonstruotų kalbinių ypatybių paplitimo vektorinių sluoksnių ir c) sumodeliuotų kalbinių ypatybių paplitimo rastrinių sluoksnių.
2.1.2. Šiuolaikinių kalbinių, sociolingvistinių ir mentalinių duomenų skaitmeninių internetinių žemėlapių pagrindą turi sudaryti ne mažiau kaip 35 erdvinių duomenų sluoksniai, sukurti remiantis statistiniais gyventojų demografijos, socioekonominių rodiklių ir kalbos gyvybingumo duomenimis. Pastarieji duomenys turi būti surinkti atliekant reprezentatyvias sociolingvistines lietuvių kalbos vartosenos, prestižo, nuostatų, percepcijos, kalbos (kalbų) variantiškumo ir kt. apklausas.
2.2. Reikalavimai duomenyno geoerdvinės informacijos infrastruktūrai:
2.2.1. Turi būti naudojamos GIS technologijos, apimančios šiuos komponentus:
2.2.1.1. GIS duomenų saugojimo;
2.2.1.2. GIS duomenų analizės ir vizualizacijos;
2.2.1.3. GIS duomenų publikavimo ir viešinimo;
2.2.1.4. WEB žemėlapių aplikacijų kūrimo;
2.2.1.5. mobiliojo GIS;
2.2.1.6. GIS turinio valdymo;
2.2.1.7. atvirų duomenų teikimo.
2.2.2. Turi teikti duomenis atviruosius OGC (angl. Open Geospatial Consorcium, žr.
https://www.ogc.org/) standartus palaikančiais formatais: KML, WMS, WCS, WFS ir WFS-T.
2.3. Plėtojant lietuvių kalbos erdvinių išteklių duomenyną, turi būti:
2.3.1. Užtikrinta universali atvira prieiga pasinaudoti sukauptais duomenimis, kuri pasiekiama per REST paslaugas (GIS REST paslauga – žemėlapinės paslaugos tipas, suteikiantis naudotojams atviras prieigas komunikuoti su GIS serveriais).
2.3.2. Teikiama galimybė atsisiųsti erdvinių duomenų rinkinį kitoms informacinėms sistemoms ir vietovės intelekto bei dirbtinio intelekto sprendimams tinkamu formatu.
2.3.3. Plėtojamos priemonės, skirtos duomenims rinkti ir analizuoti bei apklausoms vykdyti, apimančios GIS pagrindu veikiančias mobiliąsias programėles, WEB aplikacijas su redagavimo funkcija, automatizuotus duomenų apdorojimo įrankius.
2.4. Kokybės užtikrinimo reikalavimai:
2.4.1. Skenuotų archyvinių kalbos paplitimą vizualizuojančių žemėlapių rastrinių duomenų geoorientavimui naudoti ne mažiau nei 50 taškų.
2.4.2. Kuriant GIS pagrindu veikiančias mobiliąsias apklausų aplikacijas, naudoti išmaniąsias formas, kuriose naudotojui pateikiami iškrentantys sąrašai tiksliai informacijai suvesti ir užtikrinama loginė atributų pildymo seka, t. y. kito atributo reikšmės parenkamos priklausomai nuo anksčiau parinktos reikšmės.
2.4.3. Kuriamuose įrankiuose turi būti realizuota techninė galimybė aprašyti atributų pildymo taisykles, kurios leistų apskaičiuoti atributo reikšmę iš kelių laukų arba sukirsti vieną geografinį sluoksnį su kitu ir taip gauti atributinę reikšmę.
2.4.4. Produktai turi turėti konstruojamų aplikacijų intuityvią aplinką, leidžiančią atlikti iš dalies sukonfigūruotų aplikacijų peržiūrą; turi būti vadovaujamasi ką matai – tą gauni (angl. what-you-see-is-what-you-get (WYSIWYG) principu.
2.4.5. Analizės bei apdorojimo automatizavimo įrankiuose turi būti veiklos žurnalai; juose būtų registruojamos įrankių veikimo klaidos bei duomenų apdorojimo eiga, registruojama minimali duomenų apdorojimo statistika (apdorota N iš pradinių M duomenų).
2.4.6. Turi būti užtikrintos duomenų kokybės ir integralumo priemonės duomenų bazėje: erdviniai ryšiai, atributinių laukų klasifikatoriai, trigeriai, erdvinės topologijos validavimo taisyklės.
3. Duomenynų metaduomenys privalo būti publikuoti Lietuvos atvirų duomenų portale (data.gov.lt) ir duomenynai privalo būti prieinami nemokamai. Duomenų fizinės kopijos turi būti pateiktos Informacinės visuomenės plėtros komitetui.
Sukurtiems duomenynams turi būti taikomas išsamiai dokumentuotas tarptautinis metaduomenų standartas (pvz., „Data Catalog Vocabulary“ (DCAT)
https://www.w3.org/TR/vocab-dcat-3/, „Dublin Core Metadata Element Set“ (DCMES)
https://www.dublincore.org/specifications/dublin-core/dces/, „The Component Metadata Initiative“ (CMDI)
https://media.dwds.de/clarin/userguide/text/metadata_CMDI.xhtml arba analogiški).
Kuriant visus produktus (rezultatus) privalu laikytis:
1. autorių ir gretutines teises reguliuojančių Lietuvos ir Europos Sąjungos teisės aktų;
2. duomenų apsaugą reguliuojančių Lietuvos ir Europos Sąjungos teisės aktų;
3. dirbtinio intelekto sistemoms rengiamų mokymo duomenų kokybę reguliuojančių Lietuvos ir Europos teisės aktų;
4. Lietuvos ir Europos Sąjungos teisės aktų, reguliuojančių atvirų duomenų formavimo ir skelbimo principus (ES direktyva dėl atvirųjų duomenų ir viešojo sektoriaus informacijos pakartotinio naudojimo BDAR (EUR-Lex - 32016R0679 - EN - EUR-Lex (europa.eu),
https://eur-lex.europa.eu/legal-content/EN/TXT/?qid=1561563110433&uri=CELEX:32019L1024).
Kuriant visus produktus (rezultatus) rekomenduojama atsižvelgti į rengiamą naują dirbtinio intelekto aktą (EUR-Lex - 52021PC0206 - EN - EUR-Lex (europa.eu)).
Turi būti parengta ištekliaus naudojimo licencija, kuri užtikrina atvirą ir nemokamą prieigą prie ištekliaus. Visi surinkti ištekliai turi turėti atitinkamas atviras licencijas.
Projekto vykdytojas kiekvieną ketvirtį (iki mėnesio 8 d.) nuo projekto sutarties pasirašymo turi informuoti Lietuvos Respublikos ekonomikos ir inovacijų ministerijos (toliau – Ministerija) paskirtą atsakingą asmenį apie projekto veiklų įgyvendinimo pažangą. Informacija apie projekto veiklų įgyvendinimo pažangą skelbiama viešai
https://eimin.lrv.lt/.