Pārskata periodā paveiktais:
• Automātiskās apstrādes problēmgadījumu detektēšana un pusautomātiska analīze izmeklējumu un epikrīžu aprakstos, apzinot dažādus robežgadījumus. Programmatūras pilnveide robežgadījumu apstrādei. Dokumentu arhīva automatizēta apstrāde ar izmeklējumu un epikrīžu aprakstu automātiskai izguvei un anonimizēšanai.
• Iepriekš izgūtajam vairāk nekā 2700 svešvārdu sarakstam (galvenokārt zāļu nosaukumi), no kuriem lielākā daļa nav latviešu valodas vārdu, tiek pievienota izruna. Tiek norādīta gan vārdu standartizruna, gan ārstu saziņā lietotais variants, piem., Diclofenac – [diklofenak] vs. [diklofenaks]. Savukārt vairāk nekā 13 tūkst. vārdformām, kurām nevar automātiski noteikt ortogrāfisko transkripciju (saīsinājumi, latīnismi, drukas kļūdas u.c.), transkripcija tiek piekārtota manuāli.
• Programmatūras moduļu izstrāde tīmekļa tehnoloģijās balstītam runas korpusa izveides rīkam (audio un teksta segmentēšanai un sastatīšanai, teksta izvēršanai), kas nodrošinās iespēju centralizēti sadarboties vairākiem transkribētājiem un sekot līdzi progresam. Diktofonu centra darbinieku intervēšana, apzinot pašreizējās transkribēšanas darba plūsmas tehniskās detaļas un praksi, kas tiks ņemta vērā gan izstrādājot specializēto runas korpusu, gan diktēšanas platformas prototipu.
• Akustiskās vides analīze manuāli sagatavotajos audio paraugos. Vadlīniju izstrāde audio korpusam nepieciešamo datu atlasei. Valodas modeļa pielāgošanas iespēju izpēte, ņemot vērā iegūto apjomīgo, taču samērā trokšņaino medicīnisko tekstu korpusu.
• Metodikas pilnveide tekstu korpusā balstītai apzīmējumu un saīsinājumu automātiskai izvēršanai. Šablonu novērtēšana un jaunu šablonu definēšana, izmantojot no RAKUS dokumentu arhīva atvasināto medicīnisko tekstu korpusu.
• Sagatavota zinātniskā publikācija “Development and Evaluation of Speech Synthesis Corpora for Latvian”.
Informācija ievietota 27.12.2019.