Srdečne vás pozývame na spoločný webinár o modelovaní jazyka, ktorý organizujú Národné kompetenčné centrá pre HPC na Slovensku a v Taliansku na tému: Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)
Nástup veľkých jazykových modelov (LLM), ktoré si vyžadujú obrovské množstvo trénovacích dát, pôvodne znevýhodňoval používateľov málo zastúpených jazykov.
Kedy a ako sa pripojím
Prednáška sa uskutoční 11. júna 2025 od 10.00 online cez MS Teams.
Jazyk: angličtina
Registrácia
Registrovaní účastníci dostanú pozvánku na stretnutie v MS Teams niekoľko dní pred podujatím.
Registrácia: https://forms.office.com/e/UECHKV1gA3
O prednáške Slovenčina v ére veľkých jazykových modelov
V rámci nášho projektu sa snažíme túto bariéru prekonať pre slovenčinu prostredníctvom viacerých stratégií, ktoré môžu poskytnúť metodologické poznatky aj pre iné jazyky s nízkym počtom zdrojov:
- Generovanie bilingválnych dátových súborov: Pomocou starostlivo zostavenej databázy odborne redigovaných slovenských kníh využívame model LLaMA 3.3 70B Instruct na preklad textov do angličtiny a späť do slovenčiny. Týmto spôsobom vytvárame dva datasety – jeden na trénovanie kompaktného otvoreného modelu pre preklad z angličtiny do slovenčiny a druhý na zlepšenie strojovo preloženej slovenčiny.
- Sumarizácia vedeckých textov: S využitím Gemini Flash Experimental a vedeckej databázy PLOS generujeme súhrny vedeckých článkov v slovenčine. Tento dataset podporuje trénovanie slovenských LLM v oblasti špecializovanej vedeckej terminológie.
- Zvýšenie kultúrneho kontextu: Hoci modely ako DeepSeek a ChatGPT dosahujú v slovenčine relatívne dobré výsledky, majú ťažkosti s kultúrne špecifickými a kontextuálnymi témami týkajúcimi sa Slovenska. Plánujeme syntetizovať texty zo slovenských zdrojov na vytvorenie datasetu, ktorý túto medzeru zaplní.
Rečník: Marek Dobeš
Spoluautori: Radovan Garabík a Peter Bednár