Vai Jūs varētu īsi ar sevi iepazīstināt – kāda ir Jūsu nodarbošanās? Kāda ir Jūsu saistība ar valodu tehnoloģijām?
Esmu valodniece, LU MII Mākslīgā intelekta laboratorijas (AiLab) vadošā pētniece, un mans galvenais pētījumu objekts ir mūsdienu latviešu valoda dažādos aspektos. AiLab misija ir attīstīt resursus un tehnoloģijas latviešu valodas pastāvēšanai daudzvalodu vidē, un šeit atziņas par valodu varu gūt, gan veidojot latviešu valodas resursus, gan arī analizējot dažādas lingvistiskas parādības jau izveidotajos resursos. Ar resursiem ir domāti valodas dati, kas tiek izmantoti valodu tehnoloģijās, – leksiskās datubāzes (vārdnīcas) un valodas korpusi.
Galvenie resursi, kas noderīgi plašākai sabiedrībai ikdienā, ir apkopoti divās platformās – populārajā vārdnīcā “Tēzaurs” un “Nacionālajā korpusu kolekcijā”. Varbūt paskaidrošu, ka valodas korpusi ir rakstītu tekstu, transkribētu runas vai video ierakstu kopums, kas paredzēts modernai lingvistiskai analīzei un valodas tehnoloģiju izstrādei. Korpusos tiek iekļauts autentisks, ļoti plašs, miljoniem vārdu liels valodas materiāls, kas atspoguļo valodas lietojumu, bet korpusu pārlūkprogrammas piedāvā iespēju analizēt šos apjomīgos tekstus, konstatēt tajos valodas tipiskās vai neparastās, retās parādības.
Kas ir “Balsu talka”?
“Balsu talka” ir kampaņa, kuras laikā lūdzam sabiedrību iesaistīties latviešu valodas runas korpusa izveidē – ierunāt dažus teikumus, lai savāktu pēc iespējas vairāk latviešu valodas runas paraugu un izveidotu daudzveidīgu, atvērtu un ikvienam pieejamu latviešu runas datu kopu. Balsu paraugu vākšanai izmantojam starptautiski pazīstamo Mozilla Common Voice platformu, kur savāktie runas dati ir pieejami ikvienam. Šobrīd ir savāktas vairāk nekā 170 stundas ierakstu no 4364 runātājiem, vairāk nekā puse no ierakstiem ir pārbaudīti.
Kā radās “Balsu talka”? Kā radās ideja īstenot šo projektu?
Runas korpusu izveide ir ļoti dārga un laikietilpīga, jo runas dati ir precīzi jātranskribē. Lielākā daļa latviešu valodas runas datu, ko pašlaik izmanto pētniecības iestādes un valodu tehnoloģiju uzņēmumi, nav atvērti un brīvi pieejami.
Jau pusotru gadu AiLab tiek veidots brīvi pieejams spontānās runas korpuss, bet, kā jau teicu, transkribēšana notiek visai lēnu. Tāpēc mēs domājām, kā pēc iespējas ērtāk savākt daudz transkribētu ierakstu un izveidot atvērtu, apjomīgu mūsdienu latviešu valodas runas datu kopu. Kopā ar mūsu sadarbības partneri LU LFMI apsvērām dažādus variantus, jo mums interesēja savākt arī spontāno runu, bet nevarējām atļauties paši tādā apjomā kvalitatīvi transkribēt datus. Tad satikāmies ar Raivi Deju, kurš jau aicināja iedzīvotājus ierunāt teikumus Mozilla Common Voice. Un tā īsā laikā radās “Balsu talkas” kampaņa, kuru kopā ar LU LFMI un Latvijas Atvērto tehnoloģiju asociāciju (LATA) uzsākām jau 4. maijā un kurā savācām pirmās 100 stundas dažādu balsu ierakstu.
Kā “Balsu talkā ievāktie dati tiks izmantoti?
Dati tiek regulāri publicēti Common Voice platformā atbilstoši Creative Commons CC0 publiskā domēna licencei, kas nozīmē, ka nevienam uz datiem nepieder autortiesības. Ikviens tos var brīvi izmantot jebkuram mērķim, tādā veidā veicinot neierobežotu pētniecības attīstību gan valodniecībā, gan valodu tehnoloģijās.
Lietotājam “Balsu talkā” laikā līdz vasaras vidum savāktie dati apskatāmi un noklausāmi “Balsutalka.lv runas korpusā”. Tur, piemēram, var noklausīties, kā dažādi cilvēki ierunājuši fragmentus no Annas Brigaderes “Sprīdīša” vai citus tekstus. Ar šo korpusu var strādāt valodas pētnieki, īpaši fonētiķi. Piemēram, dati ļauj dažādu cilvēku runā analizēt zilbes intonāciju, kas ir tipiska latviešu valodas garajās zilbēs, skatīties, kādas pozicionālās skaņu pārmaiņas un cik regulāri notikušas vārdos. Tā kā ierunājamo teikumu kopā ir dažādu komunikatīvo tipu teikumi – gan stāstījuma, gan jautājuma, gan izsaukuma, tad iespējams analizēt teikuma intonāciju.
Kā “Balsu talka” veicina latviešu valodas attīstību un kāda ir tās ietekme uz valodas izmantojumu?
Pašu latviešu valodas attīstību šī iniciatīva īsti neveicina, bet, kā jau minēju, iegūtie dati ļauj analizēt dažādus latviešu valodas aspektus.
Sadarbībā ar Rēzeknes Tehnoloģiju akadēmiju ir izveidota iniciatīvas latgaliskā versija “Bolsu tolka”, kur aktīvi piedalās cilvēki, kas prot skaļi nolasīt teikumus latgaliešu rakstu valodā. Kā izrādās, daudziem ir patiesi jākoncentrējas, lai izlasītu ievietotos teikumus. Iespējams, kādam tas ir treniņš lasīšanai latgaliešu rakstu valodā.
Jāuzsver, ka mūsu mērķis ir iegūt dažādu balsu ierakstus, tostarp ar izlokšņu iezīmēm un akcentiem. Nav nozīmes dalībnieku vecumam, dzimumam un tautībai – jo daudzveidīgāki būs balsu paraugi latviešu un latgaliešu valodā, jo vērtīgāk. Šī ir arī kultūrvēsturiski nozīmīga iniciatīva, jo Latvijā un diasporā ierunātie balsu paraugi tiks iemūžināti un saglabāti nākamajām paaudzēm.
Kādi ir galvenie izaicinājumi un uzdevumi, darbojoties “Balsu talkā”?
Mums šajā projektā ir izveidojusies ļoti jauka komanda, kur katram ir savs uzdevums - AiLab domā par saturu un iegūto datu analīzi, LU LFMI un LATA mūs iedvesmo dažādiem sabiedrības iesaistes pasākumiem, bet Raivis Dejus rūpējas par tīmekļvietni balsutalka.lv un iekļaušanos Mozilla Common Voice platformā.
Šobrīd ir svarīgi novērtēt jau iegūtos datus, piemēram, sākotnējā rezultātu analīze rāda, ka runas atpazīšanai noderīgāki ir garāki teikumi, nevis viena līdz piecu vārdu teikumi. No otras puses, šādi teikumi un pat vārdi ir ļoti nepieciešami valodas analīzē.
Tāpat ir skaidrs, ka savākt pēc iespējas lielāku runas korpusu nav galvenais uzdevums. Būtiski ir radīt daudzveidīgu korpusu, kurā dažādus tekstus ierunājuši cilvēki ar dažādiem akcentiem vai izlokšņu iezīmēm. Atlasot tekstus, ko talkas dalībnieki ierunā, pēc iespējas skatāmies, lai parādītos latviešu valodā biežāk lietotie vārdi, lai tiktu iekļauti teikumi ar atšķirīgu sintaktisko un komunikatīvo struktūru u. tml. Tāpat talkas dalībniekiem atgādinām, ka vienlīdz svarīgi ir pārbaudīt jau ierunātos teikumus. Starp citu, ir ļoti patīkami klausīties, kā (ar kādu izteiksmi, intonācijām) teikumus ir ierunājuši talkas dalībnieki.
Kāds varētu būt tālākais solis, lai uzlabotu valodu tehnoloģijas?
Kā jau minēju, ir svarīgi dažādot ielasāmo teikumu kopu, raudzīties, lai tiek pievienoti garāki teikumi (protams, ievērojot Common Voice ierobežojumu – līdz 14 vārdiem). Tāpat būtu vērtīgi, ka paplašinātos “Balsu talkas” dalībnieku skaits – lai korpusā būtu pēc iespējas vairāk dažādu runas paraugu. Un, protams, jau ierakstīto datu pārbaudīšana ir tikpat nozīmīga kā balss ierakstīšana.
Vai Jūs redzat citas valstis vai projektus, kas varētu kalpot par paraugu vai iedvesmu “Balsu talkai”?
Protams, domājot par runas datu vākšanu, mēs paši analizējām citu valstu pieredzi, kā runas datu vākšanā iesaistīt plašāku sabiedrību. Visiespaidīgākais šķita somu projekts “Donate Speech” (no šī projekta vēlāk iedvesmojušies arī igauņi), bet viņi neizmanto Mozilla Common Voice platformu un vāc spontānu runu, nevis lūdz ielasīt teikumus. Tas nozīmē, ka viņi sākotnēji iegūst runas ierakstus bez transkripcijām. Bet tieši transkripcijas ir sarežģītākais posms runas korpusu izveidē. Līdzīgi kā mēs, runas ierakstus vāc arī islandieši.
Pateicamies Baibai Saulītei par veltīto laiku mums un par ieguldījumu runas datu vākšanas projektā!
Projektu “Valodu tehnoloģiju iniciatīva” (Nr. 2.3.1.1.i.0/1/22/I/CFLA/002), līdzfinansē Eiropas Savienības Atveseļošanas un noturības mehānisma investīcija un Valsts budžets.