Lietuvių kalbos ateičiai užtikrinti – dirbtinis intelektas

Dirbtinis intelektas šiandien jau veikia ir lietuvių kalba. Jis gali būti pritaikomas ne tik sudėtingų techninių operacijų atlikimui, bet ir kasdienybėje. UAB „Tilde informacinės technologijos“ sukūrė programėlę, pasinaudojusi viešai prieinamais Vilniaus universiteto (VU) projekto „Lietuvių šneka valdomos paslaugos – LIEPA“ rezultatais – lietuvių natūralios šnekos garsynu ir teksto sintezatoriumi.

Kalba, kurios nėra technologijose, ateities neturi

Kaip teigia VU Filologijos fakulteto mokslininkas dr. Audrius Valotka, šnekos sintezavimo ir atpažinimo projektas buvo pasirinktas dėl kelių priežasčių. „Pirmiausia, tokį pasirinkimą lėmė moksliniai interesai, kurie sutapo su projekto finansavimo sfera. Ne mažiau svarbus ir tyrėjų požiūris į kalbos ateitį: jeigu lietuvių kalbos nebus skaitmeninėse technologijose, ji pasmerkta išnykti. Taip kažkada nutiko toms kalboms, kuriomis nebuvo pradėta spausdinti knygų – jos liko istorijos paraštėse“, – sako projekto vadovas. Nepakanka deklaruoti valstybinio lietuvių kalbos statuso, reikia ją „apgyvendinti“ mus supančiose skaitmeninėse technologijose.

Būtent tokias technologijas kuria įmonė UAB „Tilde informacinės technologijos“. Jos direktorė Renata Špukienė teigia, kad kalbinių technologijų vystymas yra įmonės strateginė kryptis nuo 2000 m. Prieš kelerius metus prasidėjus dirbtinio intelekto plėtros proveržiui, atsirado daugiau galimybių kurti kalbines technologijas, kurios iki tol buvo pernelyg sudėtingos, nes nebuvo pakankamai pajėgumų apdoroti didžiulius duomenų kiekius. Šios technologijos kuriamos naudojant dirbtinį intelektą bei pritaikant neuroninių tinklų ir giluminio mokymosi metodiką.

Kalbos technologijų kūrėjų ir vystytojų mūsų rinkoje yra labai nedaug, tad natūralu, kad mokslininkai bei verslininkai vieni kitus pažįsta ir domisi vieni kitų veikla, dalyvauja tose pačiose konferencijose, bendrauja ir ieško bendrų sąlyčio taškų. Taip ir UAB „Tilde informacinės technologijos“, kurdama naujas technologijas, domėjosi, kas Lietuvoje dirba šioje srityje, kas jau yra nuveikta, kokią ateitį ir visuomenės poreikius mato tos srities mokslininkai.

Bendravimas atveria kelius mokslo ir verslo vystymui

Įmonė „Tilde informacinės technologijos“ turi ilgametę bendradarbiavimo su mokslininkais patirtį ir yra vykdžiusi projektus su Vilniaus universitetu, Lietuvių kalbos ir Baltijos pažangiųjų technologijų institutais.

Įmonės direktorė R. Špukienės teigia, kad bendradarbiavimas su mokslininkais nėra paprastas. Mokslas paprastai atlieka fundamentinius mokslinius tyrimus, o verslas sutelkia dėmesį daugiau į eksperimentinę plėtrą ir vystymą, produktų ir paslaugų kūrimą. Todėl čia svarbų vaidmenį atlieka įvairios nacionalinių ir Europos Sąjungos fondų finansuojamos mokslo bei verslo bendradarbiavimo priemonės: HORIZON 2020, Eureka, Eurostars (MITA), programa Intelektas LT (LVPA).

„Nėra lengva suderinti mokslininkų ir verslo požiūrį į fundamentinius tyrimus, nes mokslininkai dažnai linkę tyrinėti tai, kas juos domina, tačiau tai nebūtinai tuo metu yra aktualu rinkai, ne visada iš to gali vystytis tolimesni projektai arba gimti paslaugos ir produktai. Vis dėlto, komunikuojant galima surasti bendrus požiūrio taškus“, – patirtimi dalijasi verslininkė.

Siekiama kuo geresnio rezultato su kuo mažesniais skaitmeniniais ištekliais

Dr. A. Valotka sako, kad šnekos sintezatorius jau dabar yra iš esmės gerai veikiantis produktas, kuriuo naudojasi Vilniaus savivaldybės, DELFI.lt, „Lietuvos žinių“ ir kitų portalų skaitytojai. Šiuo metu gerinama sintezatoriaus kokybė, plečiamas jo pritaikymas, derinami skaičių ir matavimų vienetų linksniai, vyksta perkėlimas į Android ir iOS aplinką. Be to, lietuviškas šnekos sintezatorius suteikia daug galimybių žmonėms su regos negalia.

„Stengiamės sukurti tokį produktą, kad su kuo mažesniais skaitmeniniais ištekliais (pvz., neprisijungus prie interneto) būtų pasiektas rezultatas. Tam naudojame didelį, 1000 valandų, labai kruopščiai anotuotą garsyną – duomenų bazę, kurioje tūkstančiai balsų įrašyti įvairiose aplinkose: triukšmingoje, ramioje, kalbant keliems žmonėms, radijo studijoje. Kita projekto dalis – šnekos atpažinimas. Vienas iš esminių projekto tikslų – valdyti balsu daiktus, kurie tuo metu nėra prisijungę prie interneto“, – apie projektą pasakoja A. Valotka.

Nauja technologija – ir kasdienis prietaisas, ir specialistų įrankis

A. Valotka pabrėžia, kad produktas yra skirtas įvairaus amžiaus grupėms be apribojimų. „Programos vartotojais gali būti tiek vyresnio amžiaus žmonės, kuriems nereikia skaityti naujienų, bet jas gali klausyti balsu, tiek ir neįgalieji, kurie balsu gali valdyti savo aplinką. Vis tik, mes labai norime, kad šnekos technologijomis naudotųsi ir kuo jaunesni vartotojai. Juk vaikystėje, paauglystėje labai lengva priprasti prie naujų technologijų, kurios vaikams yra visiškai natūrali aplinka. Pradėję naudotis lietuviškomis šnekos technologijomis dabar, jomis naudosis ir ateityje“, – mano mokslininkas.

R. Špukienė papildo, kad šnekos atpažinimo technologiją galima taikyti labai plačiai. Programėlė „Tildės balsas“ skirta paprastam vartotojui naudotis kasdieninėje veikloje – rašant trumpąsias žinutes, elektroninius laiškus, pastabas ar užrašus. Specialistams įmonė siūlo būtent jiems pritaikytus sprendimus, atitinkančius konkrečius poreikius: nuo filmų ar kitų vaizdo įrašų subtitravimo, teismo posėdžių stenografavimo iki ligoninėse apžiūrų metu daromų įrašų arba diagnozių aprašų įdiktavimo. Šiandien šnekos technologijas kasdien naudoja įmonė „Kantar TNS“, kuri užsiima žiniasklaidos stebėjimu. Ji yra viena iš pirmųjų įmonių Lietuvoje, kuri savo veikloje kliaujasi technologijomis, sukurtomis naudojant dirbtinį intelektą bei pritaikant giluminio mokymosi metodiką.

Lietuvių kalbos technologijų rezultatai prieinami visiems

Integruotų lietuvių kalbos ir raštijos išteklių, produktų ir paslaugų interneto svetainėje „Raštija“ galima rasti ir daugiau integruotos lietuvių kalbos bei raštijos išteklių – mokslinių projektų rezultatų, pavyzdžiui, anglų-lietuvių-anglų ir prancūzų-lietuvių-prancūzų kalbų porų mašininio vertimo programą. A. Valotka teigia, kad vertėjų naudojimąsi šia programa liudija užplūstantys laiškai, ypač tada, kai vykdomi serverio tvarkymo darbai.

Kitą tinklapyje pateiktą programų pluoštą: virtualiąją mokymosi aplinką „Claroline“, elektroninio portfelio rengyklę „Mahara“, buhalterinės apskaitos programą „TurboCash“, klientų ryšių valdymo programą „Vtiger“, lokalizavo prof. Valentinos Dagienės, gerai žinomos informatikos ir informacinio mąstymo konkurso „Bebras“ iniciatorės ir vadovės, vadovaujamos grupės. Greta minėtų programų – vertimo atminties žodynas ir keletas kompiuterijos terminų žodynų.

Visi integruotų lietuvių kalbos ir raštijos išteklių tinklalapyje pateikti Vilniaus universiteto mokslininkų sukurti produktai gali būti naudojami nemokamai. Be apribojimų jais galima  naudotis kuriant naujus, komercinius produktus.