Pārskata periodā publicēta Latvian UD Treebank v2.4 datu kopa – vairāk nekā 13000 sintaktiski marķētu teikumu. Papildinātā datu kopa atbilst visiem UD validācijas kritērijiem, un ir sasniegts sākotnēji definētais žanru balanss.
Turpināta nosaukto entitāšu un koreferenču marķēšana latviešu valodas daudzslāņu datu kopā. Kopumā nomarķēti vairāk nekā 9000 entitāšu pieminējumi.
Daudzslāņu datu kopā turpināta FrameNet semantisko freimu marķēšana. Šobrīd nomarķēti jau vairāk nekā 10 tūkstoši freimu lietojumu piemēru. Aktīvais darbs pie FrameNet datu kopas izveides nodrošinājis latviešu valodas iekļaušanu globālajā FrameNet kopienā.
Balstoties uz FrameNet un UD datiem, turpināts darbs pie latviešu valodas PropBank datu kopas pusautomātiskas atvasināšanas. Šobrīd jau vairāk nekā pusei FrameNet marķēto piemēru (t.i., vairāk nekā 5000 piemēru) ir sagatavoti atbilstošie PropBank dati.
Izmantojot marķētos FrameNet datus, apmācīts automātisks latviešu valodas FrameNet parseris (pirmā versija), kas atpazīst biežāk lietotos semantiskos freimus un to elementus. FrameNet parseris ir eksperimentāli integrēts NLP-PIPE rīkkopā.
Informācija ievietota 30.04.2019.