Pārskata periodā sagatavota Latvian UD Treebank v2.2 datu kopa (7703 sintaktiski marķēti teikumi).
Sagatavota līdzsvarotā mūsdienu latviešu valodas tekstu korpusa LVK 2018 alfa versija.
Pabeigta FrameNet datu kopas marķēšanas pirmā kārta (atbilstoši UD v2.2. datiem). Kopumā ir nomarķēti 7024 verbu lietojuma piemēri, kas reprezentē 432 dažādus semantiskos freimus. Dažādo leksisko vienību skaits ir sasniedzis jau 1417. Dati publicēti GitHub repozitorijā.
Uzsākti praktiski eksperimenti PropBank datu slāņa pusautomātiskai atvasināšanai no FrameNet un UD datiem.
Pabeigta daudzslāņu korpusa nosaukto entitāšu palīgslāņa marķēšanas pirmā kārta (atbilstoši UD v2.2. datiem). Kopumā ir nomarķēti 4734 entitāšu pieminējumi. Katram pieminējumam ir norādīts tā semantiskais tips, kā arī 941 pieminējumiem ir eksperimentāli norādīts atbilstošais Wikipedia identifikators. Dati publicēti GitHub repozitorijā.
Turpināts pētījums par latviešu valodas vairākvārdu savienojumu atlases kritērijiem un pētīta dažādu statistisko mēru ietekme uz atrasto vairākvārdu savienojumu precizitāti un pārklājumu. Uzsākts pētījums par automātiski izgūtas bilingvālas vārdnīcas lietojumu monolingvālu vairākvārdu savienojumu filtrēšanai.
Uzsākts darbs pie modulāras, ātrdarbīgas un mērogojamas valodas analīzes rīku darbināšanas un kombinēšanas platformas prototipa izstrādes. Šajā platformā tiks integrētas projektā izstrādātās latviešu valodas automātiskās analīzes komponentes, kas veic teksta tokenizāciju, morfoloģisko marķēšanu, nosauto entitāšu atpazīšanu, koreferenču sasaistīšanu, sintaktisko parsēšanu, kā arī semantisko lomu parsēšanu. Visas komponentes tiek pakāpeniski apmācītas, izmantojot projektā izstrādāto daudzslāņu datu kopu.
Par projekta rezultātiem publicēti divi zinātniskie raksti:
• Grūzītis N., Pretkalniņa L., Saulīte B., Rituma L., Nešpore-Bērzkalne G., Znotiņš A., Paikens P. Creation of a balanced state-of-the-art multilayer corpus for NLU. Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC), 2018
• Grūzītis N., Nešpore-Bērzkalne G., Saulīte B. Creation of Latvian FrameNet based on Universal Dependencies. Proceedings of the International FrameNet Workshop 2018: Multilingual FrameNets and Constructicons (IFNW), 2018
Vēl divi zinātniskie raksti publicēti par pētījumiem, kas tapuši sinerģijā ar projektu:
• Darģis R., Auziņa I., Bojārs U., Paikens P., Znotiņš A. Annotation of the Corpus of the Saeima with Multilingual Standards. Proceedings of the 2018 ParlaCLARIN Workshop, 2018
• Darģis R., Auziņa I., Levāne-Petrova K. The Use of Text Alignment in Semi-Automatic Error Analysis: Use Case in the Development of the Corpus of the Latvian Language Learners. Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC), 2018
Informācija ievietota 27.04.2018.