Preskočiť na obsah Preskočiť na pätu (NCP VaT)
VEDA NA DOSAH – váš zdroj informácií o slovenskej vede

Pri zrode lingvistickej databázy stála matematika

VEDA NA DOSAH

slovo zopakované veľakrát za sebou a nikde inde

Slovenský národný korpus vznikol ako elektronická databáza, v ktorej sú archivované texty v slovenčine, obohatené o jazykové informácie. Archivované texty pochádzajú predovšetkým z oblasti beletrie, odbornej literatúry a žurnalistiky, ďalej korpus obsahuje nárečové a historické databázy slov, ako aj slovníkové databázy, ktoré umožňujú skúmať slovenský jazyk, a tiež význam slov a ich využitie v jednotlivých časových obdobiach. RNDr. Radovan Garabík je spoluriešiteľom projektu Budovanie Slovenského národného korpusu a elektronizácia jazykovedného výskumu na Slovensku, II. a III. Etapa.  

Samotné budovanie Slovenského národného korpusu trvalo od počiatočnej myšlienky až po jeho finálnu podobu takmer štrnásť rokov – od roku 2002 až do roku 2016 a jeho elektronický archív sa neustále dopĺňa. Pri zrode tejto idey stála nielen skutočnosť, že okolité európske krajiny už v dobe jeho vzniku podobnými korpusmi disponovali, ale aj skutočnosť, že slovenčina je neustále vyvíjajúci sa jazyk, ktorý počas svojho vývoja ovplyvnilo veľké množstvo iných jazykových faktorov. Práve databázy a možnosti, ktoré Slovenský korpus ponúka, umožňujú – a to nielen jazykovedcom, ale aj laikom – nahliadnuť napríklad aj do histórie používania a vzniku jednotlivých slov a napríklad zistiť, ktorý jazyk ovplyvnil vznik toho – ktorého slova. 

Slovenský národný korpus je určený aj širokej verejnosti

RNDr. Radovan GarabíkTo, že RNDr. Radovan Garabík vyštudoval matematicko-fyzikálnu fakultu UK v Bratislave a venoval sa jadrovej a subjadrovej fyzike nie je náhoda. Tvrdí, že ako absolvent matematicko – fyzikálnej fakulty UK v Bratislave si nájde široké spektrum uplatnenia, aj vo sfére jazykovedného výskumu, napríklad ako jeden z programátorov a konštruktérov systému Slovenského korpusu. Na prednáške, ktorá prebiehala v CVTI SR za účasti poslucháčov z radov stredoškolákov, sme mohli byť svedkami toho, ako Slovenský národný korpus môže v praxi fungovať. V súčasnosti jeho elektronická podoba obsahuje Hlavný korpus písaných textov, ďalej ručne morfologicky anotovaný korpus, morfologickú databázu, korpusy textov spred roku 1955, hovorené korpusy, korpus nárečí, historický korpus slovenčiny, slovenskú terminologickú databázu, slovenský word net, korpus krymsko – tatárskeho jazyka a ďalšie korpusy súčasných písaných textov SNK. Funkcie a databázy korpusu vyhľadávajú predovšetkým lingvisti, jazykovedci, autori rôznych slovníkov, ale napríklad aj tvorcovia, alebo lúštitelia krížoviek. V Slovenskom národnom korpuse si takisto môžeme nájsť pôvod našich súčasných slov, zistiť z akého jazyka pochádzajú alebo ako často sa v našom písanom prejave vyskytujú. Radovan Garabík v rámci svojej prednášky poslucháčom predviedol, ako sa dá aj matematicky vyčísliť, do akej miery je naša súčasná slovenčina mäkká, alebo ľubozvučná a prečo je ypsilon v našom jazyku taký potrebný. 

Väčšina funkcií Slovenského národného korpusu je dostupná až po bezplatnom prihlásení sa užívateľa, a v jeho elektronickej databáze môžu užívatelia tiež hľadať najdlhšie, alebo najkratšie slová v slovenskom jazyku, prípadne využiť prekladač s názvom Ludevít, ktorý preloží súčasný slovenský text do pôvodnej štúrovčiny. Časť funkcií môžu využívať aj užívatelia anonymní – ak si chcú napríklad vyhľadať rozšírenie svojich priezvisk, ktorých databázu z roku 1995 Slovenský národný korpus tiež obsahuje.

 

Slovenský národný korpus

 

Prednáška RNDr. Radovana Garabíka o Slovenskom národnom korpuse sa uskutočnila v utorok, 24. januára 2017 v priestoroch CVTI SR v rámci cyklu Vedecká cukráreň.

vedecká cukráreň / január 2017

 

Spracovala: Barbora Hrvolová, NCP VaT pri CVTI SR

Foto: J. Laštinec, NCP VaT pri CVTI SR

Ilustračné foto: prezentácia RNDr. Radovana Garabíka

Uverejnila: ZVČ

CENTRUM VEDECKO-TECHNICKÝCH INFORMÁCIÍ SR Ministerstvo školstva, výskumu, vývoja a mládeže Slovenskej republiky