Pētījums Nr.2.9. „Runas korpusa izveide, principi, metodes, realizācija"
Pētījuma vispārīgais mērķis: veikt pētījumus runas atpazīšanā, veicinot latviešu valodas runas tehnoloģiju attīstību un latviešu valodas konkurētspēju virtuālajā pasaulē.
Projekta specifiskie mērķi:
• izveidot ortogrāfiski marķētu latviešu valodas runas korpusu (kopapjoms 100 stundas);
• izveidot fonētiski marķētu latviešu valodas runas korpusu (kopapjoms 4 stundas);
• analizēt korpusu piemērotību runas atpazīšanai.
Projekta ilgums: 12 mēneši (2013. gada janvāris – decembris)
Sadarbības partneri: SIA „LETA", SIA „IT kompetences centrs", SIA „Tilde"
LU MII pētījuma daļas kopējās izmaksas: 75 979,04 LVL
2013. gada 2. janvāris — 2013. gada 28. marts
1. aktivitāte „Pētījums runas korpusu balansētības un kvalitātes kritēriju izstrādei”
Pārskata periodā veiktie darbi:
- Pētījums par prasībām runas atpazīšanas sistēmām.
- Pētījums par prasībām runas korpusiem.
- Pētījums par fonētiskās sabalansētības kritērijiem.
- Pētījums par runas atpazīšanas sistēmu un runas korpusu izstrādi pieejamo resursu ziņā ierobežotām un morfoloģiski bagātām valodām.
Rezultāts: nodevums – pētījums “Latviešu valodas runas korpusa balansētības kritēriji”.
2. aktivitāte „Runas korpusa izveides metodikas un marķēšanas specifikācijas izstrāde”
Pārskata periodā veiktie darbi:
- Ārvalstu pētniecības rezultātu analīze un piemērojamības izvērtējums latviešu valodas runas korpusa izstrādei.
- Runas korpusa izveides metodikas izstrāde.
- Korpusa struktūras raksturojuma, metadatu specifikācijas izstrāde.
- Korpusā iekļaujamo audiodatu apzināšana, to kvalitātes novērtēšana un korpusā iekļaujamo datu atlases metodikas izstrāde.
- Ortogrāfiskās marķēšanas principu izstrāde un adaptēšana.
- Fonētiskās marķēšanas principu izstrāde.
Rezultāts: nodevums – pētījums “Runas korpusa izveides metodikas un marķēšanas specifikācija”.
3. aktivitāte „Ortogrāfiski marķēta latviešu valodas runas korpusa izstrādes pētījums”
Pārskata periodā veiktie darbi:
- Audiodatu atlase un sagatavošana ortogrāfiski marķētas datu kopas izveidei.
- Segmentēšanas rīka izstrāde automātiskai audiodatņu sadalīšanai fragmentos runātāju maiņas vietās.
- Datubāzes izstrāde datu glabāšanai un statistikas izguvei (korpusa vietnes izstrāde).
Rezultāti:
- izstrādāta datubāze datu glabāšanai un statistikas izguvei;
- izstrādāta ortogrāfiski marķēta runas korpusa apakškopa – 9 h 30 min. (~9% no plānotā).
2013. gada 2. aprīlis – 28. jūnijs
3. aktivitāte „Ortogrāfiski marķēta latviešu valodas runas korpusa izstrādes pētījums”
Pārskata periodā veiktie darbi:
- Korpusā iekļaujamo audiodatu apzināšana, to kvalitātes novērtēšana.
- Audio/video materiālu grupēšana.
- Audiodatu atlase atbilstoši pētījumā „Latviešu valodas runas korpusa balansētības kritēriji” aprakstītajiem kritērijiem
- Ortogrāfiski marķēto datu statistiskā analīze un atlase fonētiski marķētas datu kopas izveidei.
- Fonēmu biežuma un fonēmu kombināciju analīze ortogrāfiski marķētajos datos.
- Metadatu pievienošana audiodatiem (informācija par ieraksta vietu, runas apstākļiem, runas veidu u.tml.).
- Runas korpusa vārdnīcas metodoloģijas izstrāde un principu definēšana.
- Runas datu segmentēšana un atšifrēšana.
- Datubāzes izstrādes datu glabāšanai un statistikas izguvei pilnīgošana.
- Marķēto datu pēcapstrāde un konvertēšana nepieciešamajos formātos.
Rezultāts: pārskata perioda beigās sasniegtais ortogrāfiski marķēta runas korpusa apjoms ir aptuveni 24 stundas (24 % no plānotā)
2013. gada 1. jūlijs – 30. septembris
3. aktivitāte „Ortogrāfiski marķēta latviešu valodas runas korpusa izstrādes pētījums”
Pārskata periodā veiktie darbi:
- Korpusā iekļaujamo audiodatu apzināšana, to kvalitātes novērtēšana.
- Audio/video materiālu grupēšana.
- Audiodatu atlase atbilstoši pētījumā „Latviešu valodas runas korpusa balansētības kritēriji” aprakstītajiem kritērijiem
- Ortogrāfiski marķēto datu statistiskā analīze un atlase fonētiski marķētas datu kopas izveidei.
- Fonēmu biežuma un fonēmu kombināciju analīze ortogrāfiski marķētajos datos.
- Metadatu pievienošana audiodatiem (informācija par ieraksta vietu, runas apstākļiem, runas veidu u.tml.).
- Runas korpusa vārdnīcas metodoloģijas izstrāde un principu definēšana.
- Runas datu segmentēšana un atšifrēšana.
- Datubāzes izstrādes datu glabāšanai un statistikas izguvei pilnīgošana.
- Marķēto datu pēcapstrāde un konvertēšana nepieciešamajos formātos.
Rezultāts: pārskata perioda beigās sasniegtais ortogrāfiski marķēta runas korpusa apjoms ir aptuveni 55 stundas (55 % no plānotā)
4. aktivitāte „Fonētiski marķēta latviešu valodas runas korpusa izstrādes pētījums”
Pārskata periodā veiktie darbi:
- Audiodatu atlase un sagatavošana fonētiski marķētas datu kopas izveidei.
- Audiodatu fonētiskā marķēšana.
- Fonētiski marķētas datu kopas kvalitātes pārbaude.
- Fonētiski marķēto datu precizitātes vērtēšana un salīdzināšana.
- Marķēto datu pēcapstrāde un konvertēšana nepieciešamajos formātos.
Rezultāts: pārskata perioda beigās sasniegtais fonētiski marķēta runas korpusa apjoms ir aptuveni 1 stundas 30 min. (37,5 % no plānotā)
5. aktivitāte „Runas korpusa kvalitātes un izmantojuma novērtējums”
Pārskata periodā veiktie darbi:
– analizēta korpusu atbilstība izvirzītajiem kritērijiem;
– izmantojot grafēmas-fonēmas atbilsmju likumu sistēmu, analizēts trifonu pārklājums pieejamos tekstu korpusu datus.