V posledných rokoch veľké jazykové modely (LLM) dramaticky zmenili počítačové spracovanie prirodzeného jazyka (NLP). Prelomovým bodom bolo použitie architektúry transformerov, ktoré sú vhodné hlavne na spracovanie väčšieho textového kontextu, a generatívne jazykové modely.
Kedy a kde sa prednáška Čo je potrebné na trénovanie slovenského veľkého jazykového modelu uskutoční
Prednáška prebehne 26. novembra 2024 o 16.00 na Fakulte chemickej a potravinárskej technológie STU v Bratislave, Radlinského 9 v Bratislave (2. poschodie nad hlavným vchodom, priestory knižnice).
Registrácia
Na podujatie je potrebná registrácia.
Kto bude prednášať
RNDr. Radovan Garabík, Jazykovedný ústav Ľudovíta Štúra SAV, v. v. i.
O prednáške
Čo je potrebné na vytvorenie takého modelu komunikujúceho v slovenčine?
Typické množstvo textu potrebného na trénovanie modelu, ktorý je schopný komunikovať gramaticky správne je zhruba v oblasti jedného bilióna slov. Existuje vôbec v slovenčine dosť textov? Starostlivo dlhé roky zbieraný a budovaný Slovenský národný korpus ma aktuálne veľkosť 1,5 miliardy slov. Webový korpus je väčší, má aktuálne okolo 4 miliardy slov. Záľubu obyvateľov Slovenska v súdnych sporoch dokumentuje veľkosť korpusu súdnych rozhodnutí, ktorý má vyše 10 miliárd slov a je to aktuálne najväčší dostupný korpus slovenských textov. Ostatné korpusy sú výrazne menšie. Môžeme sa ale obrátiť k viacjazyčným LLM, ktoré môžeme dotrénovať slovenskými dátami. Ukazuje sa, že okolo 5 miliárd slov stačí na „naučenie sa“ nového jazyka, čomu sa už približuje veľkosť webového korpusu a otvára možnosti pridať slovenčinu do existujúcich multilingválnych LLM.