2020. gada janvāris–marts
Pārskata periodā paveiktais:
• Uzsākta paralēla tekstu korpusa izveide datos balstītai gramatikas un leksikas likumu izstrādei un testēšanai skaitļu, saīsinājumu, abreviatūru u.tml. automātiskai izvēršanai un savēršanai izmeklējumu aprakstos. Anonimizēto izmeklējumu aprakstu izvēršana nepieciešama medicīnas valodas modeļa izveidei, lai pielāgotu runas atpazīšanas sistēmu. Savukārt teksta savēršana nepieciešama automātiski transkribēto izmeklējumu diktātu pēcapstrādei: runas atpazīšanas sistēma diktātus vispirms transkribē pilnos vārdos (tā, kā apraksti tiek izrunāti), bet rezultātā ir nepieciešams iegūt savērstu tekstu (tā, kā apraksti tiek pierakstīti).
• Izmantojot anonimizētus izmeklējumu diktātu audioierakstu fragmentus, uzsākta medicīnas valodas runas korpusa izveide. Runas korpusā audioierakstu fragmenti tiek sastatīti (ik pa dažu sekunžu segmentiem) ar precīzām šo ierakstu ortogrāfiskajām transkripcijām. Runas korpuss nepieciešams gan runas atpazīšanas sistēmas akustiskā modeļa pielāgošanai medicīnas valodas un ārstu izrunas īpatnībām, gan starprezultātu testēšanai, gan kā papildu dati aprakstu izvēršanas un savēršanas likumu izstrādē.
• Atlasot īpaši kvalitatīvus audioierakstus un sastatos tos ar manuāli pārbaudītām teksta transkripcijām, izveidots runas sintēzes pilota korpuss. Uz tā pamata tiks attīstītas izmeklējumu un epikrīžu aprakstu diktēšanas platformas prototipa runas sintēzes komponentes. Par šo tēmu sagatavota zinātniskās publikācijas “Development and Evaluation of Speech Synthesis Corpora for Latvian” gala versija, kas tiks publicēta starptautiskās konferences LREC 2020 rakstu krājumā.
Informācija ievietota 27.03.2020.
2020. gada aprīlis–jūnijs
Pārskata periodā paveiktais:
• Turpināts darbs pie izmeklējumu aprakstu korpusa izveides un izrunas vārdnīcas papildināšanas. Pilnveidota teksta izguves un anonimizācijas programmatūra jauna veida izmeklējumu aprakstu un epikrīžu veidlapu apstrādei. Izrunas vārdnīcā medicīnas terminiem norādītas locīšanas paradigmas, lai šos terminus izmeklējumu tekstos un diktātos varētu atpazīt dažādās formās, kā arī lai iegūtu normalizētu valodas modeli. Turpināti pētījumi nozarei specializēta valodas modeļa izstrādē, balsoties uz teksta korpusa datiem.
• Nozīmīgs darbs ieguldīts ortogrāfiski transkribēta runas korpusa izveidē. Korpusa apjoms šobrīd ir ~15h (no plānotajām 30h), ko veido metodiski atlasīta, reprezentatīva diktātu kopa. Runas korpusā audioieraksti (izmeklējumu diktāti) tiek sastatīti ar precīzām šo ierakstu transkripcijām. Transkripcijās tiek marķētas arī strukturālās formatēšanas komandas u.c. informācija. Runas kopuss nepieciešams gan runas atpazīšanas sistēmas akustiskā modeļa pielāgošanai nozares valodas īpatnībām, gan starprezultātu testēšanai, gan kā papildu dati aprakstu izvēršanas un savēršanas likumu izstrādē. Veikta akustiskās vides analīze runas korpusā, kā arī runas iezīmju analīze (akcenti, citu valodu ietekme).
• Turpināta metodikas un likumu pilnveide tekstu korpusā balstītai apzīmējumu, saīsinājumu un skaitļu automātiskai, kontekstuālai izvēršanai esošajos izmeklējumu aprakstos un teksta savēršanai automātiski transkribētajos izmeklējumu diktātos.
• Simulētas lietotāju saskarnes sākotnējās, eksperimentālās versijas izstrāde diktēšanas platformas prototipam.
• Sagatavots zinātniskā raksta “Creation of Language Resources for the Development of a Medical Speech Recognition System for Latvian” paplašināts kopsavilkums, kas pieņemts publicēšanai (iesniedzot galaversiju pilnā apjomā) starptautiskās konferences Baltic HLT 2020 rakstu krājumā.
Informācija ievietota 27.06.2020.