Tekstynai

Tekstynų praktinė vertė

Tekstynų rengimas – vienas iš svarbių uždavinių, spręstų projekto vykdymo laikotarpiu. Tekstynų vertė tiesiogiai priklauso nuo to, kiek metodiškai pagrįsta yra jų struktūra, todėl sudarydami tekstynus siekėme, kad jie būtų tinkami autorystės nustatymo bei autoriaus profilio (pagal amžių/lytį/politines pažiūras) sudarymo uždaviniams spręsti:

 • Būtų pakankamai didelės apimties autorių bei tekstų kiekio prasme. Parengėme 147, 174, 186 ir 1000 autorių tekstynus (plačiau apie tekstynus žr. „meta informacija“ nuorodose).
 • Būtų reprezentatyvūs ir apimtų skirtingus kalbos stilius (grožinį/administracinį/šnekamąjį) bei kalbos rūšis (norminę/nenorminę). Parengėme grožinės lietuvių kalbos, seimo stenogramų, interneto forumo tekstų ir interneto komentarų tekstynus.
 • Būtų išsamūs ir savyje talpintų ne tik pačius tekstus, tačiau ir papildomą (morfologinę/sintaksinę/simbolinę/stilometrinę) informaciją. Tekstynų nebereikia papildomai apdoroti išoriniais įrankiais (morfologiniais/sintaksiniais analizatoriais ir kt.).
 • Būtų parengti specialiu formatu, leidžiančiu jiems taikyti šiuolaikinius prižiūrimo mašininio mokymo (angl. machine learning) ar panašumu paremtus (angl. similarity-based) metodus.

Tekstynus savo tyrimuose gali naudoti:

 • Informatikos mokslų atstovai, jiems taikydami metodus, eksperimentiškai išbandydami įvairius metodų parametrus, vertindami gautus rezultatus.
 • Filologijos mokslų atstovai, atlikdami lingvistines ar su metodais gautų rezultatų palyginamąsias analizes pagal funkcinius stilius, kalbos rūšis, teksto savybių tipus; atlikdami įvairias metodų klaidų analizes.
 • Socialinių mokslų atstovai, atlikdami parlamentarų pasisakymų ir išpažįstamos ideologijos atitikimo analizes; įvairių sociodemografinių charakteristikų tyrimus (ar Seimo narių pasisakymai atitinka politines programas, kurios politinės partijos yra homogeniškiausios ideologiniu požiūriu ir pan.); rinkimų kampanijos įtakos parlamentarų pasisakymams, bei politinių preferencijų (ideologijos) įtakos pasisakymų turiniui analizes; parlamentarų deklaruojamos ideologinės krypties atitikimo partijų, kurioms priklauso, politinėms preferencijoms ir vykdomai politikai analizes; parlamentarų politinės socializacijos bei propaguojamų vertybių tyrimus.

Parengtus tekstynus galima naudoti tiek moksliniams tyrimams, tiek ir konkretiems praktiniams uždaviniams spręsti:

 • Kompiuterinės lingvistikos srityje (pvz. atliekant įvairias palyginamąsias analizes skirtingoms kalboms).
 • Teismo lingvistikoje (pvz. siekiant nustatyti asmens, įvykdžiusio nusikaltimą internete, tapatybę)
 • Elektroninėje komercijoje (pvz. nustatant kokio amžiaus ar lyties atstovai domisi įmonės siūloma produkcija).
 • Ir kt.
Projekto vykdymo metu parengti šie tekstynai:

Skirti autorystės nustatymo uždaviniui spręsti:

 • STENOGRAMOS_INDV – Seimo stenogramų tekstai, skirti individualių autorių autorystės nustatymo tyrimams (meta informacija, tekstynas)
 • FORUMAS_INDV – Interneto forumų tekstai, skirti individualių autorių autorystės nustatymo tyrimams (meta informacija, tekstynas)
 • GROŽINĖ_INDV – grožinės lietuvių kalbos tekstai, skirti individualių autorių autorystės nustatymo tyrimams (meta informacija, tekstynas)
 • INT_KOMENTARAI_INDV – Interneto komentarai, skirti individualių autorių autorystės nustatymo tyrimams (meta informacija, tekstynas)
 • INT_KOMENTARAI_INDV2 – Interneto komentarai, skirti individualių autorių autorystės nustatymo tyrimams (išplėstas) (meta informacija, tekstynas)

Skirti autoriaus profilio sudarymo uždaviniui spręsti:

 • AMŽIUS_PROF – Seimo stenogramų tekstai, skirti autorių profilio (pagal amžiaus charakteristiką) nustatymo tyrimams (meta informacija, tekstynas)
 • GROŽ_AMŽIUS_PROF – grožinės lietuvių kalbos tekstai, skirti autorių profilio (pagal amžiaus charakteristiką) nustatymo tyrimams (meta informacija, tekstynas)
 • LYTIS_PROF – Seimo stenogramų tekstai, skirti autorių profilio (pagal lyties charakteristiką) nustatymo tyrimams (meta informacija, tekstynas)
 • GROŽ_LYTIS_PROF – grožinės lietuvių kalbos tekstai, skirti autorių profilio (pagal lyties charakteristiką) nustatymo tyrimams (meta informacija, tekstynas)
 • POLITINĖS_PAŽIŪROS_PROF – Seimo stenogramų tekstai, skirti autorių profilio (pagal politines pažiūras) nustatymo tyrimams (meta informacija, tekstynas)