Prednáška / Bratislava

Čo je potrebné na trénovanie slovenského veľkého jazykového modelu

Čo je potrebné na trénovanie slovenského veľkého jazykového modelu

Čo je potrebné na trénovanie slovenského veľkého jazykového modelu. Zdroj: eurocc.nscc.sk

V posledných rokoch veľké jazykové modely (LLM) dramaticky zmenili počítačové spracovanie prirodzeného jazyka (NLP). Prelomovým bodom bolo použitie architektúry transformerov, ktoré sú vhodné hlavne na spracovanie väčšieho textového kontextu, a generatívne jazykové modely.

Kedy a kde sa prednáška Čo je potrebné na trénovanie slovenského veľkého jazykového modelu uskutoční

Prednáška prebehne 26. novembra 2024 o 16.00 na Fakulte chemickej a potravinárskej technológie STU v Bratislave, Radlinského 9 v Bratislave (2. poschodie nad hlavným vchodom, priestory knižnice).

Registrácia

Na podujatie je potrebná registrácia.

Kto bude prednášať

RNDr. Radovan Garabík, Jazykovedný ústav Ľudovíta Štúra SAV, v. v. i.

O prednáške

Čo je potrebné na vytvorenie takého modelu komunikujúceho v slovenčine?

Typické množstvo textu potrebného na trénovanie modelu, ktorý je schopný komunikovať gramaticky správne je zhruba v oblasti jedného bilióna slov. Existuje vôbec v slovenčine dosť textov? Starostlivo dlhé roky zbieraný a budovaný Slovenský národný korpus ma aktuálne veľkosť 1,5 miliardy slov. Webový korpus je väčší, má aktuálne okolo 4 miliardy slov. Záľubu obyvateľov Slovenska v súdnych sporoch dokumentuje veľkosť korpusu súdnych rozhodnutí, ktorý má vyše 10 miliárd slov a je to aktuálne najväčší dostupný korpus slovenských textov. Ostatné korpusy sú výrazne menšie. Môžeme sa ale obrátiť k viacjazyčným LLM, ktoré môžeme dotrénovať slovenskými dátami. Ukazuje sa, že okolo 5 miliárd slov stačí na „naučenie sa“ nového jazyka, čomu sa už približuje veľkosť webového korpusu a otvára možnosti pridať slovenčinu do existujúcich multilingválnych LLM.

Viac info

https://itkurzy.sav.sk/node/240