Preskočiť na obsah Preskočiť na pätu (NCP VaT)
VEDA NA DOSAH – váš zdroj informácií o slovenskej vede

Radovan Garabík o Slovenskom národnom korpuse

Marta Bartošovičová

RNDr. Radovan Garabík z Jazykovedného ústavu Ľudovíta Štúra SAV v Bratislave

Slovenský národný korpus je elektronická databáza primárne obsahujúca slovenské texty od roku 1955 z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod. Texty a slová v korpuse sú obohatené o jazykové informácie a predstavujú referenčný materiálový zdroj poznatkov o slovenčine a jej reálnom používaní, ktoré sa z korpusu získavajú pomocou špecializovaných vyhľadávacích nástrojov.

Slovenský národný korpus je zároveň vedeckovýskumný projekt tvorby celého komplexu slovenských elektronických Slovenský národný korpus - logojazykových zdrojov (paralelné korpusy, hovorený korpus, nárečový korpus, historický korpus, slovníkové databázy) a digitalizácie jazykovedného výskumu, ktorý sa realizuje na oddelení Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra Slovenskej akadémie vied v Bratislave s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR.

Prinášame rozhovor s RNDr. Radovanom Garabíkom, programátorom a zástupcom vedúcej oddelenia Slovenského národného korpusu v Jazykovednom ústave Ľudovíta Štúra SAV v Bratislave.

Radovan Garabík (1974) v rokoch 1992 – 1997 študoval jadrovú a subjadrovú fyziku na Matematicko-fyzikálnej fakulte Univerzity Komenského v Bratislave. V r. 1997 – 2000 bol pracovníkom uvedenej fakulty. V roku 2000 absolvoval pracovný pobyt v Spojenom ústave jadrových výskumov v Dubne v Ruskej federácii. V r. 2001 – 2002 pokračoval v práci na Fakulte matematiky, fyziky a informatiky Univerzity Komenského v Bratislave. Od roku 2002 pracuje v Jazykovednom ústave Ľ. Štúra SAV. Ako zodpovedný riešiteľ alebo spoluriešiteľ má na svojom konte 18 medzinárodných a domácich projektov. V rokoch 2002 – 2016 bol spoluriešiteľom hlavného projektu Budovanie Slovenského národného korpusu a elektronizácia jazykovedného výskumu na Slovensku, II. a III. etapa, ako aj predchádzajúcej I. etapy. V roku 2005 získal Cenu Slovenskej akadémie vied za budovanie infraštruktúry pre vedu (člen kolektívu). Venuje sa korpusovej a počítačovej lingvistike, počítačovému spracovaniu jazyka, lexikografii, analýze dát a histórii jazyka. Je spoluautorom viacerých publikácií či zborníkov.

 

M. BARTOŠOVIČOVÁ: Ako ste sa dostali od jadrovej a subjadrovej fyziky ku korpusovej a počítačovej lingvistike?

R. GARABÍK: Veľmi jednoducho. Absolventi Matematicko-fyzikálnej fakulty sa podľa môjho názoru môžu uplatniť všade. Jazykovedný ústav hľadal pre začínajúci projekt Slovenského národného korpusu programátorov, dnes by sme povedali pracovníkov so znalosťami IT. Uvedenú podmienku som spĺňal, okrem toho som sa aj predtým zaujímal o lingvistiku a jazyky. A keďže už v tej dobe bola známa skutočnosť, že programátora je ľahké naučiť lingvistiku, ale málokedy sa podarí lingvistu naučiť programovať, bol som na danú pozíciu prijatý. Základné znalosti z matematiky a štatistiky, ktoré sú  nevyhnutné pri štúdiu jadrovej fyziky, sa v tejto oblasti tiež ukazujú ako veľmi užitočné. 

M. B.: Stáli ste pri zrode Slovenského národného korpusu. Čo bolo podnetom na jeho vytvorenie?  

R. GARABÍK: Dalo by sa povedať, že dozrela doba. Takmer vo všetkých okolitých krajinách korpusová lingvistika už fungovala, vznikali aj na ten čas veľké korpusy. Svetlým vzorom bol napríklad Český národní korpus, ktorý vznikol už v roku 1995, takže v dobe vznikania Slovenského národného korpusu sa už veľmi výrazne pociťovala absencia podobného zdroja v slovenskej lingvistike, obzvlášť preto, lebo bolo možné porovnávať sa s inými. Kľúčové bolo aj úsilie kolegyne Márie Šimkovej, ktorá dokázala presvedčiť dovtedy nepresvedčenú časť odborných a laických kruhov. 

M. B.: Aká bola pôvodná štruktúra dát tohto korpusu a ako sa vyprofilovala do dnešných dní?

R. GARABÍK: Pôvodná štruktúra sa riadila heslom „Spracovať všetko, čo sa dá, a podľa možnosti čo najviac“. Samozrejme, mali sme už vypracované plány, ako budú vyzerať jednotlivé (pod)korpusy, hlavne so zreteľom na zastúpenie troch hlavných typov textov – publicistiky, odbornej literatúry a beletrie. Časom sa osobitne vyčlenili texty získané z internetu, niektoré z nich na začiatku tvorili bežnú súčasť existujúceho korpusu, ale neskôr sa webové korpusy začali spracovávať osobitne ako samostatná a veľmi špecifická zložka jazyka. Vznikli aj rôzne špecializované korpusy, ako napríklad korpus historickej slovenčiny, hovorený korpus a nárečový korpus. 

M. B.: V posledných desaťročiach sa v slovenskej slovnej zásobe udomácnilo množstvo anglicizmov. Ako prevzaté slová ovplyvňujú náš slovník? Máte ich zmapované?

R. GARABÍK: Anglicizmy sa naozaj vyskytujú v rôznych oblastiach slovnej zásoby, napríklad vo sfére módy (sveter, pulóver, mejkap, rifle, džínsy, šortky, slipy, zips), športu (futbal, hokej, volejbal, basketbal, gól, ofsajd, aut, puk, šprintovať, pádlo), poľnohospodárstva (traktor, kombajn), zábavy (diskdžokej, džez, fanúšik, fetovať, film, klaun, sci-fi) a mnohých ďalších. Dokonca aj ľudia na Slovensku sa bežne zdravia slovom pochádzajúcim z angličtiny (ahoj).

Najčastejšie anglicizmy (bez geografických názvov) v slovenčine podľa korpusu prim-7.0-vyv sú: gól, film, klub, tím, dolár, internet, www, futbal, futbalový, filmový, líder, trend (pričom, samozrejme, zaradenie www medzi slová je otázne, slovo dolár sme síce prevzali z angličtiny, ale pôvodne pochádza z nemčiny – je príbuzné so slovom toliar). Z častých prevzatých slov tvoria anglicizmy okolo 6 %, v porovnaní so zastúpením latinských (57 %), gréckych (20 %) a francúzskych prevzatých slov (10 %) vidíme, že angličtina má ešte čo doháňať – ale už predbehla napríklad taliančinu (4 %) a nemčinu (3 %). Najviac anglicizmov predstavujú termíny z oblasti športu a vlastné mená. V prvej stovke najčastejších slov v slovenčine je iba jedno jediné prevzaté slovo, a to sloveso musieť prevzaté z nemčiny. 

M. B.: Kto najviac využíva Slovenský národný korpus a aká je jeho návštevnosť?

R. GARABÍK: Najviac určite lexikografi pri tvorbe slovníkov. V súčasnosti sa už slovník moderného jazyka prakticky ani nedá robiť bez korpusu. Nasledujú ďalší jazykovedci, potom prekladatelia, učitelia, ale často aj lúštitelia krížoviek a hráči hry SCRABBLE. Priamo v korpuse zaznamenávame asi 13-tisíc vyhľadávaní za mesiac, v čom nie sú zahrnuté prístupy pracovníkov Jazykovedného ústavu. Okrem toho sú príklady z korpusu použité aj na slovníkovej stránke (http://slovniky.korpus.sk), kde je asi 540 tisíc vyhľadávaní za mesiac, ale pravdepodobne nie všetkých zaujímali korpusové príklady. 

M. B.: Čo konkrétne obsahuje Vaša práca a čo Vás na nej najviac baví?

R. GARABÍK: V podstate robím(e) všetko, čo súvisí so spracovávaním slovenčiny, a to nielen počítačovým spôsobom. Najviac trpezlivej práce zaberá spracovanie materiálu, ale keď je už dostatočné množstvo textov pripravené a označkované, potom sa v ňom dá nájsť veľa zaujímavostí. Pri takomto výskume tiež človeka poteší (niekedy škodoradostne), keď na základe reálnych dát vyvráti niektoré všeobecne rozšírené mýty o jazyku, ktoré sa nielenže šíria medzi verejnosťou, ale niektoré sa dokonca dostali napríklad aj do školských učebníc.

M. B.: Ďakujem Vám za rozhovor.

R. GARABÍK: Ďakujem aj ja, bolo mi potešením.

 

RNDr. Radovan Garabík bude hosťom januárovej Bratislavskej vedeckej cukrárne, v ktorej bude prezentovať tému: Slovenský národný korpus. Vedecká cukráreň sa uskutoční dňa 24. 1. 2017 o 9.00 hod. v Centre vedecko-technických informácií SR (CVTI SR) v Bratislave, Lamačská cesta 8/A (Patrónka).

 

Rozhovor pripravila a uverejnila: Marta Bartošovičová, NCP VaT pri CVTI SR

Foto: z archívu Dr. R. Garabíka

 

CENTRUM VEDECKO-TECHNICKÝCH INFORMÁCIÍ SR Ministerstvo školstva, výskumu, vývoja a mládeže Slovenskej republiky