Sintaktiski marķētā latviešu valodas tekstu korpusa izveidē panākts būtisks progress: korpusa apjoms pieaudzis par ~2000 teikumiem (kopā ~6000 teikumu). Produktivitātes pieaugums ir pateicoties pārskata periodā pilnveidotajam daļēji automatizēto rīku atbalstam, kā arī pilnveidotajai korpusa marķēšanas metodikai.
CoNLL-2017 UD parsēšanas sacensību rezultāti rāda, ka ar līdzšinējo ~4000 teikumu datu kopu ir iespējams sasniegt jau 74% LAS un 79% UAS precizitāti (http://universaldependencies.org/conll17/results.html). CoNLL sacensībās ar projektā sagatavotajiem latviešu valodas datiem strādāja 33 komandas no visas pasaules, turklāt latviešu valodas UD korpuss jau tā pašreizējā stadijā ir klasificēts kā salīdzinoši liela apjoma korpuss.
Turpināta datu vākšana un automatizēta strukturēšana, papildinot līdzsvaroto LVK tekstu korpusu. Korpusa papildināšanai tiek izmantoti LETA mediju monitoringa sistēmas dati. Korpuss ir papildināts arī ar Saeimas stenogrammu datiem, kā arī ir apzināti datu avoti, no kuriem tiks iegūti citu kategoriju teksti.
Uzsākta latviešu valodas FrameNet korpusa eksperimentāla marķēšana. Lai atvieglotu semantisko freimu un to elementu marķēšanu, tā tiek veikta, balstoties uz sintaktiskajām UD anotācijām, kas vienlaikus nodrošina precīzu sintaktiskās un semantiskās valences sastatīšanu.
Tā kā FrameNet marķēšana ir darbietilpīgāka, un tā ir jāveic pamatā manuāli, bet PropBank marķēšana ir relatīvi vispārīgāka un tuvāka sintaktiskajai UD struktūrai, ir sākta izpēte par PropBank marķējuma automātiskas ģenerēšanas iespējām, balstoties uz UD un FrameNet anotācijām.
Ir sākti arī latviešu valodas AMR korpusa izveides priekšdarbi. Paredzams, ka nosaukto entītiju (NE) un koreferenču marķēšana, paralēli UD un ProbBank marķējumam, ļaus daļēji automatizēt AMR korpusa izveidi.
Uzsākta Tēzaurs.lv jaunās platformas un datu struktūru projektēšana un atsevišķu komponentu eksperimentāla izstrāde.
Izveidota pirmā versija apjomīgam, skaitļojamam latviešu valodas GF leksikonam (~60000 vārdu), izmantojot Tēzaurs.lv datu kopu. Turpināta izpēte par latviešu valodas GF leksikona daļēji automatizētu sastatīšanu ar GF abstrakto starpvalodu leksikonu, lai nodrošinātu automātiskas tulkošanas un multilingvālas tekstrades iespējas.
Abstraktās nozīmes reprezentācijas (AMR) verbalizēšanas sistēmas pilnveidošana, izmantojot GF ietvaru, un gatavošanās sistēmas prezentācijai starptautisko zinātnisko sacensību SemEval-2017 noslēguma seminārā Vankūverā, Kanādā (nozares vadošās konferences ACL-2017 ietvaros: http://acl2017.org).
SemEval-2017 uzdevumā "Task 9, Subtask 2: AMR-to-English Generation" - angļu valodas teikumu ģenerēšanā no AMR - LU MII un LETA komanda sasniedza pārliecinoši labāko rezultātu, sacenšoties ar spēcīgām komandām: "Carnegie Mellon University" (ASV), "Information Sciences Institute" (ASV), "University of Sheffield" (Lielbritānija) un "Universitat Pompeu Fabra" (Spānija).
Informācija ievietota 31.07.2017.