Apie projektą

Nuolatos augant elektroninių tekstų kiekiui, teismo lingvistikos analitikai, interneto forumų administratoriai, socialinių tinklų prižiūrėtojai vis dažniau susiduria su autorystės nustatymo problema. Kartais būtina nustatyti autoriaus tapatybę (nes interneto forume atskleista konfidenciali įmonės informacija), kartais pakanka nustatyti autoriaus charakteristikas, tokias kaip pvz. amžius (interneto turinys prieinamas tik suaugusiems) ar lytis (50 metų vyras pažinčių svetainėje bando apsimesti 15 metų mergaite).

Moksliniai tyrimai patvirtina, jog autorystę galima nustatyti atlikus teksto stiliaus analizę, tačiau rankinis būdas, reikalaujantis milžiniškų žmogiškųjų išteklių, nėra toks tikslus, kaip automatinis (autorystės nustatymo metodų tikslumas anglų kalbai viršija 80%, tuo tarpu žmogaus – tik ~55%): žmogui tiesiog per sudėtinga atsižvelgti į daugelį įvairių faktorių vienu metu. Nors lingvistinė individualaus stiliaus (vadinamo idiolekto) sąvoka lietuvių kalbai pirmą kartą aptarta jau daugiau nei prieš 40 metų, automatinis autorystės nustatymas (naudojant mašininio mokymo metodus) iki šiol yra pakankamai nauja tema. Lietuvių kalba stipriai skiriasi nuo kitų kalbų (pvz. anglų, kuriai autorystės nustatymo problema labai plačiai išnagrinėta) savo santykinai laisva sakinio struktūra, ypač gausiu žodynu (lietuvių kalbai turime net 0,5 mln. pagrindinių žodžio formų, kai anglų kalboje tėra tik 0,3 mln.), turtinga morfologija ir žodžių darybos sistema (kaitomomis galūnėms, priesagomis mažybiniams/maloniniams žodžiams), alfabetu (nenorminės kalbos tekstuose dažnai praleidžiami diakritiniai ženklai), todėl ji reikalauja atskiro tyrimo: norint pasiekti aukštą tikslumą anglų kalbai kurtų metodų negalima tiesiog pernaudoti.

Projekto tikslas – surasti automatius metodus, kurie leistų išspręsti autorystės nustatymo bei autoriaus profilio sudarymo uždavinius lietuvių kalbai. Tyrimo metu nagrinėjami įvairūs funkciniai stiliai, bei kalbos rūšys (nuo bendrinės kalbos iki interneto komentarų).

Projektą, pavadinimu “Automatiniai autorių ir autorių grupių individualaus stiliaus nustatymo tyrimai” (ASTRA) (Nr. LIT-8-69) vykdo Vytauto Didžiojo universitetas ir Kauno technologijos universitetas. Projektą finansuoja Lietuvos mokslo taryba. Projekto trukmė: nuo 2014 m. kovo 1d. iki 2015 m. gruodžio 31d.

Šiame internetiniame puslapyje galite rasti informaciją apie parengtus tekstynus, publikacijas bei pranešimus.

lmt_logoVDU antspaudas_bordoKTU_logo_LT