Pārskata periodā pilnveidots sintaktiski marķētā latviešu valodas tekstu korpusa gramatikas modelis un sagatavota Latvian UD Treebank v2.1 datu kopa: 6296 sintaktiski marķēti teikumi pamata un paplašinātajā Universal Dependencies reprezentācijā. Veikti eksperimenti neironu tīklos balstīta sintaktiskā analizatora pielāgošanai latviešu valodai, ar UD v2.1 datu kopu sasniedzot 76.84% LAS un 81.24% UAS precizitāti.
Turpināta FrameNet datu kopas izveide. Līdz pārskata perioda beigām ir nomarķēti 2375 verbu lietojuma piemēri, kuros parādās 185 dažādi semantiskie freimi. Izstrādāta metodika FrameNet un PropBank freimu pusautomātiskai sastatīšanai, izmantojot SemLink un Predicate Matrix angļu valodas datu kopas.
Turpināta nosaukto entitāšu (NE) datu kopas marķēšana. NE slānī nomarķētas vairāk nekā 1200 rindkopas. Kopumā nomarķēti vairāk nekā 3400 dažādu tipu NE pieminējumi, no kuriem vairāk nekā 900 ir sasaistīti ar Wikipedia identifikatoriem. Izveidots eksperimentāls neironu tīklos balstīts NE atpazinējs, izmantojot līdz šim anotētos NE datus un sasniedzot 74% precizitāti. Izveidots prototips NE sasaistei ar zināšanu bāzi, integrējot WikiData datu kopu kā autoritatīvu zināšanu bāzi.
Pieņemti publicēšanai divi zinātniskie raksti:
1. Par sintaktiski un semantiski marķētā daudzslāņu latviešu valodas tekstu korpusa izveidi (“11th Language Resources and Evaluation Conference”).
2. Par UD balstīto latviešu valodas FrameNet korpusa izveidi (“International FrameNet Workshop 2018”).
Informācija ievietota 31.01.2018.