Līdzšinējā latviešu valodas sintaktiski marķētā tekstu korpusa (vairāk nekā 3000 teikumi) transformēšana atbilstoši Universal Dependencies (UD) modelim. Šī datu kopa pakāpeniski tiks publicēta atvērtajā daudzvalodu UD kopusu repozitorijā.
Uzsākta līdzsvarotā mūsdienu latviešu valodas tekstu korpusa (LVK) pusautomātiska paplašināšana, vienlaikus pārskatot korpusa struktūru, un standartizējot metadatus.
Izmantojot LVK datus, ir atlasīts 2000 bieži lietotu latviešu valodas verbu saraksts, kā arī ir izveidota sākotnējā versija automatizētam programmrīkam ar kura palīdzību verbiem tiks atlasīti reprezentatīvi un "blīvi" lietojumpiemēri.
Atlasītajiem verbiem ir uzsākta saistītās informācijas piekārtošana no citiem leksiskās semantikas resursiem: līdzšinējiem latviešu valodas sintaktisko un semantisko valenču korpusiem, kā arī multilingvālajiem FrameNet, PropBank un WordNet.
Veikta izstrādājamā latviešu valodas daudzslāņu korpusa datu formātu un anotēšanas platformu izpēte.
Uzsākts darbs pie Tēzaura šķirkļu sasaistes ar Core WordNet indeksu.
SemEval 2017 zinātnisko sacensību kontekstā sākta izpēte un veikti pirmie vienkāršotie eksperimenti abstraktās nozīmes reprezentācijas (AMR) multilingvālā verbalizēšanā.
Uzsākta vairākvārdu savienojumu (MWE) automātiskās izguves metožu izpēte. Iegūti pirmie automātiski iezgūtie MWE un n-grammu saraksti garumā no 2 līdz 6 vienībām. Veikta dažādu kolokāciju izguves metožu salīdzināšana. Apzinātie MWE kandidāti rosinājuši padziļinātu izpēti par tekstu marķēšanas metodēm un līdzekļiem plānotajā daudzslāņu valodas resursu kopā.
Informācija ievietota 22.02.2017.