| Partnerio pavadinimas | Partnerio kodas |
|---|---|
| Vytauto Didžiojo universitetas | 111950396 |
| Lietuvių kalbos institutas | 111955023 |
Didžiojo lietuvių kalbos garsyno sukūrimas (LIEPA-3) Įgyvendinama
Kvietimo numeris
02-023-K
Projekto numeris
02-023-K-0001
Sutarties įsigaliojimo data
2024-07-30 00:00
Projekto vykdytojas
Vilniaus universitetas
Vykdytojo kodas
211950810
Veiklų vykdymo pabaigos data
2026-04-30 00:00
Administruojanti institucija
Centrinė projektų valdymo agentūra
Bendra projekto tinkamų finansuoti išlaidų suma
4 015 289,49 €
Projektu sprendžiamos problemos
Projektas yra skirtas sudaryti sąlygas spartesnei valstybės skaitmeninimo plėtrai, pasiūlant viešai prieinamus skaitmeninius kalbinius išteklius – anotuotą lietuvių kalbos garsyną, skirtą ir tinkamą šnekos atpažinimo, dirbtinio intelekto (DI) ir kitoms inovatyvioms kalbos technologijoms plėtoti.
Problema, prie kurios sprendimo prisidedama projektu, yra ta, kad šiuo metu pilnai neišnaudojamos turimos valstybės skaitmeninimo galimybės ir nesudaromos sąlygos kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei. Sprendžiama problema atitinka 2021–2030 m. LR Ekonomikos ir inovacijų ministerijos Valstybės skaitmeninimo plėtros programos, patvirtintos LR Vyriausybės 2021 m. lapkričio 17 d. nutarimu Nr.971 įvardintą problemą. Plėtros programoje teigiama, kad siekiant užtikrinti e. paslaugų patogumą vartotojams, saugumą, sąveikumą ir prieinamumą ne tik nacionaliniu, bet ir tarpvalstybiniu lygiu, į jas reikia integruoti pažangius įrankius ir technologinius sprendimus, prioritetą teikiant DI, natūralios kalbos apdorojimo ir supratimo, mašininio mokymosi, duomenų analitikos principais veikiančių sprendimų, elektroninės atpažinties ir patikimumo užtikrinimo įrankių, taip pat įrankių, kurie pritaikyti asmenų, turinčių specialiųjų poreikių, bei neįgaliųjų poreikiams tenkinti, užtikrinančių sklandų tarpvalstybinį bendradarbiavimą ir paslaugų pasiekiamumą verslui ir visuomenei, kūrimui.
Sprendžiamos problemos priežastis – įrankių ir technologinių sprendimų, kuriuos naudojant paslaugos būtų inovatyvios, tolygiai prieinamos ir saugios, trūkumas ir nepakankamas e.paslaugų procesų skaitmeninimas ir brandos lygis. Sparti IT plėtra visaverčiam lietuvių kalbos funkcionavimui skaitmeninėje terpėje kelia naujų uždavinių - lietuvių pažinimas didžiųjų duomenų analizė, mašininio mokymosi ir neuroninių tinklų pritaikymas kalbos analizei, DI technologijų kūrimas su kalba susijusioms paslaugoms, tobulesnis mašininis vertimas ir kt. DI technologijų priartinimas prie visuomenės, siekiant užtikrinti jų prieinamumą lietuvių kalba, skatintų naudojimąsi šiomis technologijomis ir didintų visuomenės skaitmeninius įgūdžius.
Jei nebus sprendžiama minėta problema ir šalinamos jos atsiradimą lėmusios priežastys, kyla grėsmė, kad būdami vis labiau judrūs negalėsime dirbti šnekėdami lietuviškai su modernia judriąja įranga: planšetiniais kompiuteriais, išmaniaisiais mobiliaisiais telefonais ir išmaniaisiais daiktais. Taip pat negalėsime pasiūlyti įrankių, kurie būtų pritaikyti asmenų, turinčių specialiųjų poreikių, bei neįgaliųjų poreikiams tenkinti. Nors Lietuvoje valstybės institucijų ar kitų viešųjų paslaugų įstaigų e.paslaugomis bent kartą per metus pasinaudojo 71,8 proc. 16–74 metų amžiaus gyventojų, tačiau su lietuvių kalba susijusiomis e.paslaugomis, tokiomis kaip automatinės kalbos atpažinimo priemonės, naudojosi tik 20 proc. Lietuvos gyventojų (šaltinis: Informacinės visuomenės plėtros 2023 m. apžvalga). Atotrūkis yra didelis. Be to, yra santykinai didelis asmenų su specialiaisiais poreikiais skaičius - vien regėjimo sutrikimus ir aklumą 2023 m. Lietuvoje turėjo beveik 58 tūkst. žmonių (šaltinis: Higienos instituto Sveikatos statistikos duomenų portalas).
Visų šnekos atpažinimo ir sintezės, o taip pat susijusių DI, natūralios kalbos apdorojimo ir kitų inovatyvių skaitmeninių technologijų pagrindas yra anotuoti garsynai. Garsynas – fonetiškai reprezentatyvi šnekos duomenų bazė, pritaikyta šnekos (kalbos) technologijoms (pavyzdžiui, kalbos sintezei ir atpažinimui), susijusių elektroninių paslaugų kūrimui ir teikimui. Anotuotas garsynas – rinkinys, susidedantis iš garso įrašų ir juos atitinkančių tekstinių transkripcijų.
Lietuvių kalba yra viena sudėtingiausių, o kartu viena mažiausiai komerciškai patrauklių kalbų. Todėl ilgą laiką nebuvo kokybiškų šnekos užrašymo tekstu priemonių ir sprendimų. Nors pastaraisiais metais buvo vykdyti išteklių kūrimo, automatinio šnekos atpažinimo projektai, gerinama šnekos sintezės kokybė ir pan., tačiau viešai prieinamų lietuvių kalbos garsynų yra mažai ir jų pritaikomumas naujoms technologijoms, užduotims ar sritims yra ženkliai ribotas – maža apimtis ir įvairovė (didžiausias garsynas tik 1000 val.), nepakankami modelių apibendrinimui ir kuriamų kalbos technologijų ir sprendimų patikimumui užtikrinti (nepakankama turinio fonetinė, teminė, stiliaus įvairovė).
Pasaulyje plėtojamos šnekos atpažinimo sistemos daugiausiai yra skirtos anglakalbiams, o produktai, sukurti kitakalbių, netinka lietuvių šneka valdomų paslaugų kūrimo reikmėms. Pagrindiniai užsienio gamintojai, turintys įdirbį kalbos technologijų srityje (Google, Apple, IBM, Interactions, AT&T Watson, Microsoft ir kt.) beveik neturi patirties, dirbant su lietuvių kalba. Pvz., Google turi lietuvių kalbos atpažintuvą, tačiau jis yra prastos kokybės, prieinamas tik Google produktuose (Android OS, Chrome) ir neturi perpanaudojimo ar tobulinimo galimybės. Lietuvių kalbai, ypač jos taikymui specialiose srityse, pritaikytų kalbos technologijų ir susijusių e.paslaugų kokybė gerokai atsilieka nuo užsienyje kuriamų sprendinių.
Todėl užsibrėžtas projekto tikslas - sudaryti galimybes ir geresnes sąlygas skaitmeninimo plėtrai ir naujomis technologijomis pagrįstiems sprendimams, kuriant pažangias skaitmenines paslaugas visuomenei. Projekto uždavinys - parengti ne mažiau kaip 10 tūkst. val. anotuotą lietuvių kalbos garsyną, skirtą šnekos atpažinimo, DI ir inovatyvioms technologijoms plėtoti. Projekto įgyvendinimo metu bus sukurtas nematerialus turtas – 10 tūkst. val. anotuotas lietuvių kalbos garsynas (iš jų: 5000 val. skaitytinės šnekos stiliumi, 4900 val. spontaninės šnekos stiliumi, 100 val. su įvairių dialektų šneka). Garsyno įrašai bus saugomi laisvai platinamu / atviruoju formatu. Garsynas bus pateikiamas mažiausiai dviejose atviros prieigos platformose (pvz., „Hugging Face“, CLARIN ar kt.) ir Lietuvos atvirų duomenų portale (data.gov.lt) ir prieinamas nemokamai.
Įgyvendintas projekto uždavinys prisidės šalinant sprendžiamos problemos atsiradimą lėmusias priežastis – bus sukurtas atvirai prieinamas išteklius – anotuotas lietuvių kalbos garsynas – kurį naudojant būtų kuriamos naujos, inovatyvios, tolygiai prieinamos ir saugios e.paslaugos, užtikrinamas aukštesnio lygio e.paslaugų procesų skaitmeninimas ir brandos lygis. Įgyvendinus projekto uždavinį, bus pasiektas projekto tikslas, kuriuo bus prisidedama sprendžiant projekto atsiradimą lėmusią problemą – su naujais skaitmeniniais lietuvių kalbos ištekliais bus galima geriau išnaudoti skaitmeninimo galimybes ir bus sudarytos geresnės sąlygos kurti naujomis technologijomis pagrįstus sprendimus, juos diegti, kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei.
Projektas prisideda prie 2021–2030 metų nacionalinio pažangos plano 1 tikslo „Pereiti prie mokslo žiniomis, pažangiosiomis technologijomis, inovacijomis grįsto darnaus ekonomikos vystymosi ir didinti šalies tarptautinį konkurencingumą“ 1.7 uždavinio „Skatinti valstybės skaitmeninimą“ įgyvendinimo. Taip pat prisidedama prie 2021–2030 m. LR Ekonomikos ir inovacijų ministerijos Valstybės skaitmeninimo plėtros programoje įvardintų problemų sprendimo ir priežasčių šalinimo, pažangos priemonės Nr. 05-002-01-07-08 „Kurti technologinius sprendimus ir įrankius, leidžiančius saugiai ir patogiai naudotis paslaugomis“ veiklų ir siekiamų rodiklių – projektu prisidedama prie lietuvių kalbos išteklių DI technologijų sprendimų poreikiams ir inovatyvioms technologijoms plėtros ir tuo pačiu skaitmeninės ekonomikos ir visuomenės indekso (DESI) pokyčio. Projektas atitinka Lietuvių kalbos plėtros skaitmeninėje terpėje ir kalbos technologijų pažangos 2021–2027 metų gaires, patvirtintas LR Seimo 2020 m. spalio 13 d. nutarimu Nr. XIII-3324 – bus sukurtas įvairių sričių, dialektų, amžiaus grupių, foninės aplinkos ir kitus požymius turintis garsynas ir atvertas visuomenei.
Atskirai paminėti specialiuosius poreikius turintys asmenys bei neįgalieji. Anotuoto garsyno pagrindu paremta kalbos technologijų ir susijusių e.paslaugų plėtra geriau tenkins specialių poreikių turinčių ir neįgalių žmonių poreikius. Tai yra labai svarbu didinant prieinamumą ir kuriant pagalbines technologijas, pritaikytas jų unikaliems poreikiams ir iššūkiams. Asmenys, turintys kalbos sutrikimų, galės naudotis kalbos atpažinimo sistemomis ir bendravimo priemonėmis, sukurtomis naudojant anotuotą garsyną. Šios technologijos, pvz., kalbos sintezės ir papildomo bendravimo sistemos, padės jiems veiksmingai bendrauti. Elektroninių prietaisų, pvz., išmaniųjų telefonų ir kompiuterių, funkcijų patobulinamas, naudojant anotuotus kalbos duomenų rinkinius, leis daugiau naudotis balsu valdomomis funkcijomis, taip pritaikant jas asmenims, turintiems judėjimo sutrikimų. Virtualūs asistentai padės asmenims, turintiems regos, pažinimo ar mokymosi sutrikimų, naudotis elektroninėmis paslaugomis ir informacija. Todėl projektas prisidės prie horizontaliųjų principų įgyvendinimo – darnaus vystymosi, lygių galimybių, įskaitant prieinamumo užtikrinimą ir sąlygų inovatyvumo (kūrybingumo) didinimui sudarymo.
Projekto įgyvendinimo metu sukurtas rezultatas ir jo dėka pasiūlytos naujos kalbos technologijos užtikrins lietuvių šnekos aktyvų gyvavimą pasaulio elektroninėje terpėje, padės našiau dirbti, taupys gyventojų laiką paslaugoms gauti ir teikti, mažins socialinę atskirtį, leis didinti e.paslaugų prieinamumą ir brandos lygį, priartins DI technologijas prie visuomenės, užtikrinant jų prieinamumą lietuvių kalba, skatins naudojimąsi šiomis technologijomis ir didins visuomenės skaitmeninimą ir skaitmeninius įgūdžius.
Daugiau
Mažiau
Projekto tikslas
Sudaryti galimybes ir geresnes sąlygas skaitmeninimo plėtrai ir naujomis technologijomis pagrįstiems sprendimams, kuriant pažangias skaitmenines paslaugas visuomenei
Programos tipas
Naujos kartos Lietuva
Komponentas
Skaitmeninė transformacija ekonomikos augimuiPartneriai
Teritorija, kuriai tenka didžioji dalis projekto lėšų
| Regionas | Apskritis | Savivaldybė |
|---|---|---|
| Netaikoma | Vilniaus apskritis, Alytaus apskritis, Kauno apskritis, Klaipėdos apskritis, Marijampolės apskritis, Panevėžio apskritis, Šiaulių apskritis, Tauragės apskritis, Telšių apskritis, Utenos apskritis | Vilniaus m. sav., Jonavos r. sav., Telšių r. sav., Elektrėnų sav., Molėtų r. sav., Palangos m. sav., Kauno m. sav., Prienų r. sav., Klaipėdos m. sav., Kauno r. sav., Vilkaviškio r. sav., Tauragės r. sav., Klaipėdos r. sav., Alytaus m. sav., Ignalinos r. sav., Kretingos r. sav., Anykščių r. sav., Šiaulių r. sav., Panevėžio m. sav., Šiaulių m. sav., Lazdijų r. sav., Druskininkų sav., Utenos r. sav., Panevėžio r. sav., Biržų r. sav., Varėnos r. sav., Joniškio r. sav., Marijampolės sav., Rokiškio r. sav., Šalčininkų r. sav., Akmenės r. sav., Šakių r. sav., Alytaus r. sav., Kazlų Rūdos sav., Vilniaus r. sav., Rietavo sav., Kaišiadorių r. sav., Pakruojo r. sav., Kelmės r. sav., Ukmergės r. sav., Plungės r. sav., Šilutės r. sav., Mažeikių r. sav., Šilalės r. sav., Švenčionių r. sav., Pagėgių sav., Radviliškio r. sav., Kėdainių r. sav., Jurbarko r. sav., Raseinių r. sav., Trakų r. sav., Neringos sav., Kupiškio r. sav., Kalvarijos sav., Zarasų r. sav., Širvintų r. sav., Pasvalio r. sav., Birštono sav., Visagino sav., Skuodo r. sav. |
ES fondas
| Veiklos pavadinimas | Fondas |
|---|---|
| Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra | Ekonomikos gaivinimo ir atsparumo didinimo priemonė |
Finansavimo šaltiniai
| Finansavimo šaltinio kodas | Finansavimo šaltinio forma | Finansavimo šaltinio suma |
|---|---|---|
| 1. | Projektams skiriamos finansavimo lėšos | 4 015 289,49 € |
| 1.2. | EGADP subsidijos lėšos | 3 783 000,00 € |
| 1.6. | Valstybės biudžeto lėšos, skirtos ES fondų lėšomis netinkamam finansuoti PVM apmokėti | 232 289,49 € |
| 2. | Nuosavas įnašas | 0,00 € |
Projekto veiklos
| Sutarties projekto veiklos numeris ir pavadinimas | Sutarties poveiklės numeris ir pavadinimas |
|---|---|
| 05-002-01-07-08-02 Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra | 05-002-01-07-08-02-01 Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra |
Sutarties intervencinių priemonių srities duomenys
- 021a - Parama skaitmeninio turinio kūrimui ir platinimui