2020. gada jūlijs–septembris
Pārskata periodā paveiktais:
• Pabeigta anonimizēta vēsturisko izmeklējumu aprakstu teksta korpusa izveide (135 milj. vārdlietojumu). Pabeigta anonimizētas vēsturisko izmeklējumu audio ierakstu (diktātu) kolekcijas izveide (380 stundas). Sagatavota izrunas vārdnīcas starpversija (145 tūkst. vārdformu). Sagatavota ortogrāfiski transkribēta un marķēta runas atpazīšanas korpusa starpversija (30 stundas). Sagatavota ortogrāfiski transkribēta runas sintēzes korpusa starpversija (30 stundas).
• Sagatavots runas atpazīšanas sistēmas sākotnējais valodas modelis un akustiskais modelis. Sagatavota teksta priekšapstrādes (tokenizācijas un izvēršanas) programmatūras sākotnējā versija. Sagatavota runas sintēzes sistēmas sākotnējā versija.
• Sagatavots izmeklējumu aprakstu diktēšanas platformas un simulētas lietotāju saskarnes sākotnējais prototips.
• 9. starptautiskajā zinātniskajā konferencē “Human Language technologies – the Baltic Perspective” nolasīts referāts “Creation of Language Resources for the Development of a Medical Speech Recognition System for Latvian”.
Informācija ievietota 28.09.2020.
2020. gada oktobris–decembris
Pārskata periodā paveiktais:
• Turpināta nozarspecifiskās izrunas vārdnīcas un ortogrāfiski transkribētā runas korpusa papildināšana un pilnveide. Runas korpuss aptver dažāda veida izmeklējumus (rentgens, ultrasonogrāfija, datortomogrāfija u.c.) dažādās izmeklējumu apakšjomās, kā arī ietver epikrīžu diktātus un to transkripcijas.Korpuss reprezentē arī runātāju dažādību: tas aptver vairāk nekā 70 ārstus, kas pārstāv dažādas apakšnozares, vecuma grupas, akcentus u.tml.
• Turpināts pilnveidot vēsturisko izmeklējumu aprakstu izvēršanas likumus un programmatūru, kas nepieciešams uzlabota nozaspecifiskā valodas modeļa iegūšanai. Uzsākts darbs šī programmrīka paplašināšanā pretējā virziena uzdevuma veikšanai: automātiski transkribēto diktātu savēršanai kompaktā, saistītā tekstā.
• Turpināts darbs pie runas sintēzes sistēmas uzlabotas versijas izstrādes, izmantojot nākamās paaudzes neironu tīklu tehnoloģiju.
• Izstrādāta pilnveidota testa versija diktēšanas platformas prototipam P1. Šī prototipa mērķis ir būtiski uzlabot diktafonu centra operatoru darba produktivitāti, samazinot laiku, kas nepieciešams diktēto audioierakstu transkribēšanai. P1 nodrošina pusautomātisku transkribēšanu, t.i., automātiski transkribēto aprakstu manuālu caurskatīšanu un rediģēšanu. P1 nodrošina transkripciju un audioierakstu sastatījumu, kas būtiski atvieglo rediģēšanas uzdevumu.
• Uz P1 bāzes sākts darbs pie metodikas izstrādes strukturētai un konsekventai izmeklējumu aprakstu diktēšanai un transkribēšanai.
Informācija ievietota 28.12.2020.