Pagal Aprašą remiama veikla – kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra. Projektui „Vienkalbių ir daugiakalbių tekstynų atnaujinimas“ įgyvendinti skiriama iki 1 110 000 Eur ( vieno milijono vieno šimto dešimt tūkstančių eurų) Ekonomikos gaivinimo ir atsparumo didinimo priemonės lėšų ir iki 233 100 Eur (dviejų šimtų trisdešimt trijų tūkstančių šimto eurų) Lietuvos Respublikos valstybės biudžeto lėšų, skirtų netinkamam pridėtinės vertės mokesčiui (toliau – PVM) apmokėti. PVM gali būti finansuojamas tik Projektų administravimo ir finansavimo taisyklių VII skyriaus 4 skirsnyje nustatyta tvarka.
Galimas pareiškėjas: Informacinės visuomenės plėtros komitetas.
Privalomi techniniai reikalavimai tekstynui:
Privaloma sukurti:
1. Lietuvių kalbos vienakalbis tekstynas (bendroji, IT ir teisinė sritys) – ne mažiau nei 1 mln. sakinių.
2. Anglų kalbos vienakalbis tekstynas (bendroji, IT ir teisinė sritys) – ne mažiau nei 1 mln. sakinių.
3. Anglų-lietuvių-anglų paralelinis tekstynas (bendroji, IT ir teisinė sritys) – ne mažiau nei 0,4 mln. sakinių.
4. Prancūzų vienakalbis tekstynas (bendroji ir teisinė sritys ) – ne mažiau nei 1 mln. sakinių.
5. Prancūzų-lietuvių-prancūzų paralelinis tekstynas (bendroji ir teisinė sritys) – ne mažiau nei 0,4 mln. sakinių.
6. Vokiečių vienakalbis tekstynas (bendroji sritis) – ne mažiau nei 1 mln. sakinių.
7. Vokiečių-lietuvių-vokiečių paralelinis tekstynas (bendroji sritis) – ne mažiau nei 0,4 mln. sakinių.
8. Lenkų vienakalbis tekstynas (bendroji sritis) – ne mažiau nei 1 mln. sakinių.
9. Lenkų-lietuvių-lenkų paralelinis tekstynas (bendroji sritis) – ne mažiau nei 0,4 mln. sakinių.
Reikalavimai tekstynui:
• Kalbos: lietuvių, anglų, vokiečių, prancūzų, lenkų.
• Vienkalbiai tekstynai: ne mažiau nei 1 mln. sakinių 1 kalbai.
• Paraleliniai tekstynai: ne mažiau nei 0,4 mln. sakinių 1 kalbai.
• Ne didesnis nei 0,5% rašybos klaidų lygis kiekvienam vienakalbiam tekstynui.
• Ne didesnis nei 2,5% lygiavimo klaidų kiekis kiekvienam paraleliniam tekstynui.
• Turėtų būti pateikta dokumentacija, apibūdinanti tekstynų formatus ir metaduomenis.
• Turi būti naudojami UTF-8 kodavimo standartiniai TMX (angl. Translation Memory eXchange) ir XLIFF (XML Localization Interchange File Format) duomenų standartų formatai lygiagretiesiems duomenims ir TXT (angl. Text Document File) vienakalbiams duomenims.
Dokumentavimo reikalavimai:
• turi detaliai apibūdinti Tekstyno struktūra, jo sudarymo ir anotavimo metodikos;
• aprašytos anotacijos ir jų reikšmė;
• pateikta detali statistika įvairiais pjūviais;
• sukurtam produktui turi būti taikomas detaliai dokumentuotas tarptautinis metaduomenų standartas. (pvz., Data Catalog Vocabulary (DCAT)
https://www.w3.org/TR/vocab-dcat-3/, Dublin Core Metadata Element Set (DCMES)
https://www.dublincore.org/specifications/dublin-core/dces/, The Component Metadata Initiative (CMDI)
https://media.dwds.de/clarin/userguide/text/metadata_CMDI.xhtml arba analogiški).
Teisiniai reikalavimai projektui:
• Kuriant visus produktus (rezultatus) privalu laikytis:
• autorių ir gretutines teises reguliuojančių Lietuvos ir ES teisės aktų;
• duomenų apsaugą reguliuojančių Lietuvos ir ES teisės aktų;
• dirbtinio intelekto sistemoms rengiamų mokymo duomenų kokybę reguliuojančių Lietuvos ir Europos teisės aktų;
• Lietuvos ir Europos Sąjungos teisės aktų, reguliuojančių atvirų duomenų formavimo ir skelbimo principus. (ES direktyva dėl atvirųjų duomenų ir viešojo sektoriaus informacijos pakartotinio naudojimo BDAR (EUR-Lex - 32016R0679 - EN - EUR-Lex (europa.eu))
https://eur-lex.europa.eu/legal-content/EN/TXT/?qid=1561563110433&uri=CELEX:32019L1024).
Kuriant visus produktus (rezultatus) rekomenduojama atsižvelgti į naujai ruošiamą dirbtinio intelekto aktą (EUR-Lex - 52021PC0206 - EN - EUR-Lex (europa.eu)). Turi būti parengta ištekliaus naudojimo licencija, kuri užtikrina atvirą ir nemokamą prieigą prie ištekliaus. Visi surinkti tekstyno įrašai turi turėti atitinkamas licencijas. Tekstynas privalo būti pasiekiamas Lietuvos atvirų duomenų portale (data.gov.lt) ir ne mažiau nei per vieną atviros prieigos platformą (pvz., „Hugging Face“, CLARIN ar kt.) bei prieinamas nemokamai.
Projektas turi atitikti bendruosius projektų atrankos kriterijus, nustatytus Projektų administravimo ir finansavimo taisyklių 2 priede.
Projekto komunikacijos ir informavimo veiksmai atliekami vadovaujantis Projektų administravimo ir finansavimo taisyklių VIII skyriaus „Kiti projektų reikalavimai“ pirmojo skirsnio „Informavimas apie projektą ir komunikaciją“ nuostatomis.
Projektų atranka atliekama valstybės planavimo būdu.
Pagal Aprašą partneriai – nėra galimi.