Pārskata periodā sagatavota Latvian UD Treebank v2.3 datu kopa (9920 sintaktiski marķēti teikumi). Oriģinālā, hibrīdā gramatikas modeļa datu kopa Latvian Treebank v2.3 (10172 sintaktiski marķēti teikumi) padarīta pieejama tiešsaistes vaicājumiem.
Norisinās līdzsvarotā latviešu valodas tekstu korpusa LVK2018 (10 milj. vārdlietojumu) aprobācija.
Pabeigta programmrīka izstrāde PropBank freimu sastatīšanai ar FrameNet freimiem, ņemot vērā leksiskās vienības, un PropBank semantisko lomu sastatīšanai ar FrameNet semantiskajām lomām, ņemot vērā UD sintaktiskās lomas.
Darbs pie latviešu valodas sintaktiskās un semantiskās analīzes rīku platformas NLP-PIPE pirmās publiskās versijas.
Pabeigta nosaukto entitāšu datu kopas marķēšanas otrā kārta (atbilstoši UD v2.3). Kopumā caurskatītas 2836 rindkopas un nomarķēti 6369 NE pieminējumi. Pieaugusi NE automātiskās atpazīšanas precizitāte. Uzlabotais NE atpazīšanas rīks integrēts NLP-PIPE platformā.
Izveidota jauna versija latviešu valodas morfoloģiskajam analizatora un lemmatizatoram, uzlabojot sistēmas pārklājumu un precizitāti. Uzsākts darbs pie neironu tīklos balstīta morfosintaktiskā tagera integrācijas NLP-PIPE platformā.
Pētījumu rezultāti prezentēti trīs starptautiskās zinātniskās konferencēs:
1. “Text, Speech, Dialogue” (TSD 2018) nolasīts referāts “Deriving enhanced Universal Dependencies from a hybrid dependency-constituency treebank”;
2. “Human Language Technologies - The Baltic Perspective” (BalticHLT 2018) nolasīti referāti “Latvian FrameNet: Cross-Lingual Issues”, “Extending Tēzaurs.lv online dictionary into a morphological lexicon” un “NLP-PIPE: Latvian NLP Tool Pipeline”;
3. “CLARIN Annual Conference 2018” nolasīts referāts “Multilayer Corpus and Toolchain for Full-Stack NLU in Latvian”.
Informācija ievietota 31.10.2018.