1. Pagal Aprašą remiama veikla – kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra (Projektas „Morfologiškai ir sintaksiškai anotuotų tekstynų modeliai apmokymui“).
2. Galimi pareiškėjai: mokslo ir studijų įstaigos.
3. Projekto veiklos turi būti įgyvendintos iki 2026 m. balandžio 30 d.
4. Šiuo Aprašu finansuojamas 1 projektas, kuriam įgyvendinti skiriama iki 1 480 000 Eur (vieno milijono keturių šimtų aštuoniasdešimt tūkstančių eurų) Ekonomikos gaivinimo ir atsparumo didinimo priemonės lėšų ir iki 310 800 Eur ( trijų šimtų dešimt tūkstančių aštuonių šimtų eurų) Lietuvos Respublikos valstybės biudžeto lėšų, skirtų netinkamam pridėtinės vertės mokesčiui (toliau – PVM) apmokėti. PVM gali būti finansuojamas tik Projektų administravimo ir finansavimo taisyklių VII skyriaus 4 skirsnyje nustatyta tvarka.
5. Vienas pareiškėjas gali pateikti tik vieną PĮP, parengtą pagal Projektų administravimo ir finansavimo taisyklių 1 priede pateiktą formą.
6. Projektas turi atitikti bendruosius projektų atrankos kriterijus, nustatytus Projektų administravimo ir finansavimo taisyklių 2 priede.
7. Projekto komunikacijos ir informavimo veiksmai atliekami vadovaujantis Projektų administravimo ir finansavimo taisyklių VIII skyriaus „Kiti projektų reikalavimai“ pirmojo skirsnio „Informavimas apie projektą ir komunikaciją“ nuostatomis.
8. Projektų atranka atliekama konkurso būdu.
9. Privalomi techniniai reikalavimai projektui, morfologiškai anotuotam tekstynui ir sintaksiškai anotuotam tekstynui:
9.1. Turi būti sukurti 10 mln. žodžių lietuvių kalbos morfologiškai ir sintaksiškai anotuoti tekstynai.
9.2. Tekstai turi būti ne mažesnės nei UTF-8 koduotės.
9.3. Tekstų atranka pagal kalbos sudėtingumo lygį turi atitikti tipišką rašytinę lietuvių kalbą, atsižvelgiant į tipišką sakinių ir žodžių ilgį, tam tikrą sakinio struktūrą ir pan.
9.4. Tekstų atranka turi reprezentuoti dabartinę rašytinę lietuvių kalbą (šiuolaikiniai tekstai (ne senesni nei 2000 m.), įvairių funkcinių stilių, įvairių autorių, skirtingų žanrų).
9.5. Į abu tekstynus gali būti įtraukti tie patys tekstai.
9.6. Reikalavimai morfologiškai anotuotam tekstynui:
9.6.1. Morfologiškai anotuotame tekstyne turi būti nurodytos kalbos dalys ir atitinkamos gramatinės kategorijos (kalbos dalis, tikrinė/bendrinė, linksnis, skaičius, giminė, nuosaka, laikas, asmuo, sangrąžiškumas ir kt.).
9.6.2. Morfologijos žymų formatas turėtų atitikti MULTEXT-East standartą (
http://nl.ijs.si/ME/).
9.6.3. Duomenų formatas turi būti CSV-vertikalus (angl. comma separated values) arba TSV-vertikalus (angl. tab separated values) su 3 laukais: žodis, lema, morfologinė žyma (pvz., pirmadienį, pirmadienis, Ncmsan-).
9.6.4. Turi būti pasiektas ne mažesnis nei 97% tikslumas ir išsamumas morfologinėms žymoms.
9.6.5. Morfologinių žymų tikslumo ir išsamumo validavimas turi būti atliktas atsitiktinai parinktiems ne mažiau kaip 1000-iui žodžių.
9.7. Reikalavimai sintaksiškai anotuotam tekstynui:
9.7.1. Sintaksiškai anotuojant turi būti nurodytos sakinių ribos; pažymėti ryšiai tarp žodžių (t. y. kuris sakinio žodis kurį valdo, kuris žodis yra sintaksiškai svarbiausias); nurodytos sintaksinės funkcijos (pvz., subjektas, objektas, aplinkybės, prijungiamasis, sujungiamasis ryšys ir t. t.).
9.7.2. Tekstai turi būti parengti naudojant tarptautinį sintaksinio tekstynų anotavimo žymų standartą Universal Dependency (UD,
https://universaldependencies.org/).
9.7.3. Turi būti naudojamas duomenų formatas CoNLL-U arba jam prilygstantį formatą.
9.7.4. Turi būti pasiektas ne mažesnis nei 85% tikslumas sintaksinių ryšių tarp žodžių žymoms.
9.7.5. Turi būti pasiektas ne mažesnis nei 80% tikslumas sintaksinių funkcijų žymoms.
9.7.6. Sintaksinių ryšių ir sintaksinių funkcijų žymų validavimas turi būti atliktas atsitiktinai parinktiems 300-ui sakinių.
9.8. Tekstynas privalo būti pateikiamas mažiausiai dviejose atviros prieigos platformose (pvz., „Hugging Face“, CLARIN ar kt.) ir Lietuvos atvirų duomenų portale (data.gov.lt) ir prieinamas nemokamai.
10. Tekstynų validavimui keliami šie reikalavimai:
10.1. Reikia sukurti sprendimus ir priemones, leidžiančios iš morfologiškai ir sintaksiškai anotuotų tekstynų apmokyti mašininio arba giliojo mokymo technologijų sprendimus (pvz., apmokyti kalbos technologijų platforminį sprendimą Spacy).
10.2. Pademonstruoti jų veikimą bei įvertinti automatinės sintaksinės ir morfologinės analizės tikslumus, automatiškai analizuojant naujus, į tekstyną neįeinančius tekstus ir pademonstruoti veikimo tikslumą. Validavimo imtis – 1 000 sakinių. Validavimas laikomas tinkamu, jei morfologinės analizės klaidų skaičius neviršys 10 proc. o sintaksinės analizės klaidų skaičius neviršys 15 proc.
11. Dokumentavimo reikalavimai: a) ištekliaus aprašymas; b) naudojimo instrukcijos; c) taikymo rekomendacijos; d) rekomendacijos tolimesnei ištekliaus plėtrai; e) sukurtam produktui turi būti taikomas detaliai dokumentuotas tarptautinis metaduomenų standartas. (pvz., Data Catalog Vocabulary (DCAT)
https://www.w3.org/TR/vocab-dcat-3/, Dublin Core Metadata Element Set (DCMES)
https://www.dublincore.org/specifications/dublin-core/dces/, The Component Metadata Initiative (CMDI)
https://media.dwds.de/clarin/userguide/text/metadata_CMDI.xhtml arba analogiški).
12. Teisiniai reikalavimai projektui:
12.1. Kuriant visus produktus (rezultatus) privalu laikytis: a) autorių ir gretutines teises reguliuojančių Lietuvos ir ES teisės aktų; b) duomenų apsaugą reguliuojančių Lietuvos ir ES teisės aktų; c) dirbtinio intelekto sistemoms rengiamų mokymo duomenų kokybę reguliuojančių Lietuvos ir Europos teisės aktų; d) Lietuvos ir Europos Sąjungos teisės aktų, reguliuojančių atvirų duomenų formavimo ir skelbimo principus. (ES direktyva dėl atvirųjų duomenų ir viešojo sektoriaus informacijos pakartotinio naudojimo BDAR (EUR-Lex - 32016R0679 - EN - EUR-Lex (europa.eu))
https://eur-lex.europa.eu/legal-content/EN/TXT/?qid=1561563110433&uri=CELEX:32019L1024).
12.2. Kuriant visus produktus (rezultatus) rekomenduojama atsižvelgti į naujai ruošiamą dirbtinio intelekto aktą (EUR-Lex - 52021PC0206 - EN - EUR-Lex (europa.eu)).
12.3. Turi būti parengta ištekliaus naudojimo licencija, kuri užtikrina atvirą ir nemokamą prieigą prie ištekliaus. Visi surinkti tekstyno įrašai turi turėti atitinkamas licencijas.
13. Pagal Aprašą galimi partneriai – mokslo ir studijų įstaigos.
14. Jeigu projektas įgyvendinamas su partneriu, partnerystė projekte turi būti pagrįsta, teikti naudą ir prisidėti prie projekto tikslo įgyvendinimo ir iki PĮP pateikimo turi būti sudaryta jungtinės veiklos (partnerystės) sutartis. Jungtinės veiklos (partnerystės) sutartį pasirašo pareiškėjas ir projekto partneris. Jungtinės veiklos (partnerystės) sutartyje turi būti aiškiai išdėstyti šalių įsipareigojimai ir teisės projekto atžvilgiu (nurodytas kiekvienos šalies finansinis ir dalykinis indėlis į projektą, aptarta, kokias veiklas vykdys kiekviena šalis, numatyti projekto rezultatai ir kita) ir šalių atsakomybė, taip pat įsipareigojimai laikytis pagrindinių gerosios partnerystės praktikos taisyklių:
14.1. Partneris turi būti perskaitęs projekto įgyvendinimo planą ir susipažinęs su savo teisėmis ir pareigomis įgyvendinant projekto įgyvendinimo planą.
14.2. Įgyvendindamas projektą projekto vykdytojas privalo reguliariai konsultuotis su partneriu ir nuolat jį informuoti apie projekto įgyvendinimo eigą.
14.3. Visi projekto įgyvendinimo plano pakeitimai, turintys įtakos partnerio įsipareigojimams ir teisėms, prieš kreipiantis į įgyvendinančiąją instituciją pirmiausia turi būti suderinti su partneriu.
15. Projekto vykdytojas kiekvieną ketvirtį (iki mėnesio 8 d.) nuo projekto sutarties pasirašymo turi informuoti Lietuvos Respublikos ekonomikos ir inovacijų ministerijos (toliau – Ministerija) paskirtą atsakingą asmenį apie projekto veiklų įgyvendinimo pažangą. Informacija apie projekto veiklų įgyvendinimo pažangą skelbiama viešai
https://eimin.lrv.lt/.