Pārskata periodā pilnveidots sintaktiski marķētā latviešu valodas tekstu korpusa gramatikas modelis un sagatavota latviešu valodas UD v2.1 datu kopa. Datu apjoms ir pieaudzis par 60% (kopš v2.0). Jaunajā versijā papildus tiek ģenerēts arī paplašināto UD atkarību marķējums, un latviešu valoda ir starp pirmajām valodām, kam šāds marķējums ir nodrošināts.
Sagatavota zinātniskā publikācija par sintaktiski un semantiski marķētā daudzslāņu latviešu valodas tekstu korpusa izveidi, kurā PropBank un FrameNet slāņiem ir izšķiroša loma, lai sasaistītu UD un AMR slāņus un lai nodrošinātu praktisku teksta semantiskās analīzes rīku izveidi. Publikācija iesniegta izvērtēšanai LREC 2018 konferences programmas komitejai.
Turpināta latviešu valodas FrameNet korpusa izveide. Pirmajā kārtā ir nomarķēti vairāk nekā 1000 verbu lietojumi. Pilnveidota marķēšanas metodika latviešu valodas verbu nozīmju sastatīšanai ar angļu valodas FrameNet freimiem. Starptautiskās daudzvalodu FrameNet iniciatīvas darba seminārā prezentēta latviešu valodas FrameNet izveides koncepcija un iestrādes.
Sākta latviešu valodas AMR korpusa palīgslāņu marķēšana: nosaukto entitāšu marķēšana, klasificēšana un sasaiste ar DBpedia identifikatoriem, kā arī eksperimentāla koreferenču ķēžu marķēšana. Darbs pie koncepcijas un modeļa izstrādes autoritatīvo datu repozitorijam, kas ļaus glabāt, apstrādāt un identificēt nosauktās entitātes.
Dalība starptautiskajā zinātniskajā konferencē SemEval 2017 ar stenda referātu "Combining Machine Learning and Grammar Engineering for AMR Parsing and Generation".
Sadarbojoties ar Latvijas Universitāti un Gēteborgas Universitāti, veiksmīgi noorganizēta 5. starptautiskā GF vasaras skola atbilstoši projekta tematikai: "GF in a Full Stack of Language Technology". Prezentēti projekta līdzšinējie sasniegumi un apspriesta GF tehnoloģijas izmantošana projektā, kā arī šo iestrāžu attīstības iespējas.
Informācija ievietota 31.10.2017.