Pārskata periodā veikta latviešu valodas UD datu kopas kvalitatīvā analīze, izvērtējot līdzīgu valodas parādību marķēšanu citu valodu UD datu kopās. Konstatēti atsevišķi nepieciešamie pilnveidojumi latviešu valodas sintaktiski marķētā tekstu korpusa turpmākās izstrādes vadlīnijās.
Turpināta latviešu valodas FrameNet datu kopas marķēšana, iekļaujot verbu lietojuma piemērus no UD datu kopas jaunākās versijas (UD v2.4). Šobrīd ir nomarķēti vairāk nekā 13500 piemēri, un tuvākajā laikā plānots sasniegt prognozēto apjomu – 15000 piemērus jeb vidēji 15 piemērus katram no 1000 biežāk lietotajiem latviešu valodas verbiem.
Turpināta latviešu valodas PropBank datu kopas pusautomātiska atvasināšana no FrameNet un UD datu kopām.
Pabeigta nosaukto entitāšu un koreferenču slāņu marķēšana daudzslāņu datu kopā. Kopumā nomarķēti vairāk nekā 10000 nosaukto entitāšu pieminējumi.
Iegūta latviešu valodas AMR datu kopas bāzes versija, izmantojot latviešu-angļu neironu mašīntulkošanu un angļu valodas AMR semantisko parseri.
Apmācīti kontekstuāli vārdu vektortelpas BERT modeļi latviešu valodai. Integrējot BERT modeļus kā vienu no mašīnmācīšanās pazīmju kopām, ir panākts būtisks uzlabojums latviešu valodas UD parsera precizitātē, sasniedzot 89.1% LAS (labelled attachment score) un 92.5% UAS (unlabelled attachment score). Būtiski ir uzlabojusies arī nosaukto entitāšu atpazinēja precizitāte, sasniedzot 82.5%. Veikti arī eksperimenti ar neironu tīklos balstītu koreferenču noteikšanas modeli.
Veikta projektā izstrādātā NLP-PIPE prototipa testēšana un izvērtēšana mediju monitoringa vajadzībām.
Par pētījumu rezultātiem sagatavoti un iesniegti publicēšanai divi zinātniskie raksti:
• Enriching an Explanatory Dictionary with FrameNet and PropBank Corpus Examples (ELEX 2019);
• LinkedSaeima: a Linked Open Dataset of Latvia's Parliamentary Debates (SEMANTiCS 2019).
Informācija ievietota 30.07.2019.