Foto: Kristīne Pokratniece
Ar labi padarīta darba sajūtu, kā arī vairākām iestrādnēm un neskaitāmām jaunām idejām noslēdzies VPP “Letonika latviskas un eiropeiskas sabiedrības attīstībai” projekts “Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība” (LATE; VPP-LETONIKA-2021/1-0006).
2024. gada 19. decembrī notika projekta noslēguma seminārs “Pēcpusdienas LATE: sarunas par latviešu valodu un tehnoloģijām”, kur pulcējās projekta partneri no Latvijas Universitātes (LU) Matemātikas un informātikas institūta (LU MII), LU Latviešu valodas institūta (LU LaVI), LU Humanitāro zinātņu fakultātes (LU HZF), LU Literatūras, folkloras un mākslas institūta (LU HZF) un RTU Liepājas akadēmijas (RTU Liepāja). Semināru apmeklēja interesenti no Izglītības un zinātnes ministrijas, Latviešu valodas aģentūras, Latvijas Okupācijas muzeja, Latvijas Nedzirdīgo savienības, Latvijas Zinātnes padomes, Latvijas Atvērto tehnoloģiju asociācijas un citām institūcijām.
Atklājot semināru, projekta vadītāja Ilze Auziņa (LU MII) pastāstīja par projekta komandu, pētījumu virzieniem un galvenajiem sasniegumiem, kā arī uzsvēra, ka šo trīs gadu laikā ir tapuši plaši un kvalitatīvi digitālie latviešu valodas resursi, valodas pētniecības infrastruktūra, kas ir pieejama dažādu nozaru pārstāvjiem un izmantojama padziļinātai mūsdienu runātas un rakstītas latviešu valodas izpētei. Ir aizsākti nozīmīgi fonētiskās, leksiskās un gramatiskās sistēmas pētījumi, kas būtu jāturpina.
Andra Kalnača (LU HZF) savā ziņojumā “Gramatika un tās saskarjomas – korpusos balstīti pētījumi” iepazīstināja ar valodas datos balstītiem vārddarināšanas, semantikas, pragmatikas u. c. pētījumiem. Dažādi korpusi ir vitāli svarīgi mūsdienīgā pētniecībā visdažādākajās valodniecības jomās, turklāt šādi ērti pieejami un izmantojami valodas dati ļauj arī pētniecībā ieinteresēt un iesaistīt dažādu līmeņu studentus, tādējādi veicinot pētnieku ataudzi.
LU LaVI pētnieki Edmunds Trumpa, Anete Ozola un Laura Paula Jansone referātā “Eksperimentāli mūsdienu latviešu valodas pētījumi” informēja par modernām runas analīzes metodēm latviešu literārās valodas līdzskaņu kvantitātes pētījumos.
Dina Bethere (RTU Liepāja) priekšlasījumā “Latviešu zīmju valodas digitalizācija: izaicinājumi un risinājumi” skaidroja, kas ir nedzirdīgo zīmju valoda, kāpēc tās digitalizācija ir aktuāla un kādi ir galvenie latviešu zīmju valodas digitalizācijas problēmjautājumi.
Lai semināra dalībniekus rosinātu izmantot valodas datus turpmākos pētījumos, tika demonstrēti arī projekta laikā papildinātie valodas resursi – vārdnīcas un korpusi – un izveidotie rīki.
Agute Klints (LU MII) pievērsās, iespējams, mazāk zināmām funkcijām platformā Tēzaurs.lv un parādīja, cik daudz dažādas informācijas var iegūt atsevišķos “Tēzaura” šķirkļos, kas arvien tiek papildināti, veidojot latviešu valodas leksisko tīklu. Savukārt Ieva Auziņa (LU LaVI) iepazīstināja ar “Mūsdienu latviešu valodas vārdnīcas” izveides procesu.
Baiba Saulīte (LU MII) parādīja, kādi sintaktiski marķēti dati ir pieejami Korpuss.lv un kā tos izmantot, kā arī parādīja, kā un kādēļ sintaktiski tiek marķētas “Tēzaurā” iekļautās vairākvārdu leksēmas. Gunas Rābantes-Bušas (LU MII) prezentācija “LATE jaunie korpusi: runas korpusi un zīmju valodas korpuss” ļāva ieskatīties zīmju valodas korpusā un trīs jaunos, mūsdienīgos runas korpusos, kas izveidoti šajā projektā: LATE sarunu korpuss, LATE plašsaziņas līdzekļu korpuss un LATE fonētiski marķēts runas korpuss.
Semināra nobeigumā Roberts Darģis (LU MII) demonstrēja projekta laikā izstrādāto runas sintēzes sistēmu un piedāvāja noklausīties, kā skan šīs sistēmas sintezētā balss, savukārt LU LFMI pētnieces Ilze Ļaksa-Timinska un Elīna Gailīte demonstrēja, kā LU MII radītais latviešu valodas runas atpazīšanas (transkribēšanas) rīks LATE tiek izmantots audio ierakstu atšifrēšanā un apstrādē – rīkā augšuplādēts audioieraksts tika diezgan precīzi atpazīts un jau pēc īsa brīža bija pieejams kā transkribēts teksts tālākai apstrādei – rediģēšanai un saglabāšanai.
Rezultāti un turpmākie pētījumu virzieni
Projektā tika attīstīta digitālā infrastruktūra valodas pētniecībai, izveidoti jauni un papildināti esošie valodas resursi (korpusi un vārdnīcas), kas iekļauti CLARIN-LV repozitorijā. Izstrādātas arī vairāk nekā 30 zinātniskās publikācijas (25 no tām indeksētas Web of Science un/vai Scopus datubāzē), daļa no tām iekļautas arī tematiskā rakstu krājumā – Valoda: nozīme un forma 14. Gramatika un korpusa pētījumi. Kalnača, Andra (sast. un red.). LU Akadēmiskais apgāds, 2023. https://doi.org/10.22364/vnf.14. Par pētījuma rezultātiem sagatavoti gandrīz 80 referāti un ziņots 32 starptautiskajās zinātniskajās konferencēs.
Projekts īstenots sinerģijā ar VPP projektu “Atvērtas un FAIR principiem atbilstīgas digitālo humanitāro zinātņu ekosistēmas attīstība Latvijā (DHELI)” (VPP-IZM-DH-2022/1-0002) un “Valodu tehnoloģiju iniciatīva” (2.3.1.1.i.0/1/22/I/CFLA/002) (VTI), bet atsevišķi projekta virzieni turpinās Latvijas Zinātnes padomes FLPP projektos, piemēram, “Latviešu valodas skaitļojamo leksisko resursu attīstīšana dabiskās valodas sapratnei un tekstradei (WordNet2)” (lzp-2022/1-0443), “Latviešu valodas morfēmu un vārddarināšanas modeļu datubāze” (LVMVMD) (lzp-2022/1-0013), “Biežākās kļūdas latviešu valodā: korpusā balstīta kļūdu analīze un teksta labošana (Norma)” (lzp-2023/1-0481), “Mūsdienu latviešu valodas pareizrunas standartizācija” (lzp-2024/1-0613).
Avots: https://www.digitalhumanities.lv/projekti/vpp-late/