Prednáška / celé Slovensko

Slovenčina v ére veľkých jazykových modelov

Slovenčina v ére veľkých jazykových modelov

Slovenčina v ére veľkých jazykových modelov. Zdroj: eurocc.nscc.sk


Toto podujatie už prebehlo.

Srdečne vás pozývame na spoločný webinár o modelovaní jazyka, ktorý organizujú Národné kompetenčné centrá pre HPC na Slovensku a v Taliansku na tému: Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)

Nástup veľkých jazykových modelov (LLM), ktoré si vyžadujú obrovské množstvo trénovacích dát, pôvodne znevýhodňoval používateľov málo zastúpených jazykov.

Kedy a ako sa pripojím

Prednáška sa uskutoční 11. júna 2025 od 10.00 online cez MS Teams.

Jazyk: angličtina

Registrácia

Registrovaní účastníci dostanú pozvánku na stretnutie v MS Teams niekoľko dní pred podujatím.
Registrácia: https://forms.office.com/e/UECHKV1gA3

O prednáške Slovenčina v ére veľkých jazykových modelov

V rámci nášho projektu sa snažíme túto bariéru prekonať pre slovenčinu prostredníctvom viacerých stratégií, ktoré môžu poskytnúť metodologické poznatky aj pre iné jazyky s nízkym počtom zdrojov:

  • Generovanie bilingválnych dátových súborov: Pomocou starostlivo zostavenej databázy odborne redigovaných slovenských kníh využívame model LLaMA 3.3 70B Instruct na preklad textov do angličtiny a späť do slovenčiny. Týmto spôsobom vytvárame dva datasety – jeden na trénovanie kompaktného otvoreného modelu pre preklad z angličtiny do slovenčiny a druhý na zlepšenie strojovo preloženej slovenčiny.
  • Sumarizácia vedeckých textov: S využitím Gemini Flash Experimental a vedeckej databázy PLOS generujeme súhrny vedeckých článkov v slovenčine. Tento dataset podporuje trénovanie slovenských LLM v oblasti špecializovanej vedeckej terminológie.
  • Zvýšenie kultúrneho kontextu: Hoci modely ako DeepSeek a ChatGPT dosahujú v slovenčine relatívne dobré výsledky, majú ťažkosti s kultúrne špecifickými a kontextuálnymi témami týkajúcimi sa Slovenska. Plánujeme syntetizovať texty zo slovenských zdrojov na vytvorenie datasetu, ktorý túto medzeru zaplní.

Rečník: Marek Dobeš
Spoluautori: Radovan Garabík a Peter Bednár

Viac info

https://eurocc.nscc.sk/webinar-slovencina-v-ere-velkych-jazykovych-modelov-s-podporou-superpocitaca-leonardo/