Prednáška / Bratislava

Čo je potrebné na trénovanie slovenského veľkého jazykového modelu

Čo je potrebné na trénovanie slovenského veľkého jazykového modelu. Zdroj: eurocc.nscc.sk

Toto podujatie už prebehlo.

Dátum:

26. novembra 2024 16:00 – 18:00

Miesto:

Slovenská chemická knižnica, Radlinského 9, (FCHPT STU) Bratislava

Organizátori:

Národné kompetenčné centrum pre HPC,
Fakulta chemickej a potravinovej technológie STU v Bratislave

V posledných rokoch veľké jazykové modely (LLM) dramaticky zmenili počítačové spracovanie prirodzeného jazyka (NLP). Prelomovým bodom bolo použitie architektúry transformerov, ktoré sú vhodné hlavne na spracovanie väčšieho textového kontextu, a generatívne jazykové modely.

Kedy a kde sa prednáška Čo je potrebné na trénovanie slovenského veľkého jazykového modelu uskutoční

Prednáška prebehne 26. novembra 2024 o 16.00 na Fakulte chemickej a potravinárskej technológie STU v Bratislave, Radlinského 9 v Bratislave (2. poschodie nad hlavným vchodom, priestory knižnice).

Registrácia

Na podujatie je potrebná registrácia.

Kto bude prednášať

RNDr. Radovan Garabík, Jazykovedný ústav Ľudovíta Štúra SAV, v. v. i.

Pozrite si

Banner k Vedeckej cukrárni na tému Ako technológie pomáhajú pri spracovaní slovenčiny a čo vieme naučiť umelú inteligenciu? Prednášajúci: RNDr. Radovan Garabík

VIDEO: Ako technológie pomáhajú pri spracovaní slovenčiny a čo vieme naučiť umelú inteligenciu?

3. apríla 2022 | VEDA NA DOSAH

O prednáške

Čo je potrebné na vytvorenie takého modelu komunikujúceho v slovenčine?

Typické množstvo textu potrebného na trénovanie modelu, ktorý je schopný komunikovať gramaticky správne je zhruba v oblasti jedného bilióna slov. Existuje vôbec v slovenčine dosť textov? Starostlivo dlhé roky zbieraný a budovaný Slovenský národný korpus ma aktuálne veľkosť 1,5 miliardy slov. Webový korpus je väčší, má aktuálne okolo 4 miliardy slov. Záľubu obyvateľov Slovenska v súdnych sporoch dokumentuje veľkosť korpusu súdnych rozhodnutí, ktorý má vyše 10 miliárd slov a je to aktuálne najväčší dostupný korpus slovenských textov. Ostatné korpusy sú výrazne menšie. Môžeme sa ale obrátiť k viacjazyčným LLM, ktoré môžeme dotrénovať slovenskými dátami. Ukazuje sa, že okolo 5 miliárd slov stačí na „naučenie sa“ nového jazyka, čomu sa už približuje veľkosť webového korpusu a otvára možnosti pridať slovenčinu do existujúcich multilingválnych LLM.

Viac info

https://itkurzy.sav.sk/node/240

jazyk NSCC počítač prednáška Radovan Garabík SAV

Cookie	Dĺžka trvania	Popis
__EC_TEST__	relácia	Tento súbor cookie zaznamená, či užívateľ pristupuje na stránku z mobilného zariadenia alebo desktopového počítača.
cookielawinfo-checkbox-advertisement	1 rok	Tento súbor cookie využíva doplnok GDPR Cookie Consent na zaznamenanie súhlasu používateľa pre súbory cookie v kategórii „Reklama“.
cookielawinfo-checkbox-analytics	1 rok	Tento súbor cookie využíva doplnok GDPR Cookie Consent na zaznamenanie súhlasu používateľa pre súbory cookie v kategórii „Analytické“.
cookielawinfo-checkbox-necessary	1 rok	Tento súbor cookie využíva doplnok GDPR Cookie Consent na zaznamenanie súhlasu používateľa pre súbory cookie v kategórii „Nevyhnutné“.
CookieLawInfoConsent	1 rok	Tento súbor cookie zaznamená predvolený stav tlačidla zodpovedajúcej kategórie. Funguje iba v koordinácii s primárnym súborom cookie.

Cookie	Dĺžka trvania	Popis
CONSENT	2 roky	YouTube nastavuje tento súbor cookie prostredníctvom vložených videí youtube a zaznamenáva anonymné štatistické údaje.
UID	2 roky	Scorecard Research sets this cookie for browser behaviour research.

Cookie	Dĺžka trvania	Popis
fr	3 mesiace	Facebook nastavuje tento súbor cookie tak, aby používateľom zobrazoval relevantné reklamy sledovaním správania používateľov na webe, na stránkach, ktoré majú Facebook pixel alebo sociálny doplnok Facebook.
VISITOR_INFO1_LIVE	5 mesiacov a 27 dní	Súbor cookie nastavený službou YouTube na meranie šírky pásma, ktorý určuje, či používateľ získa nové alebo staré rozhranie prehrávača.
YSC	relácia	Súbor cookie YSC nastavuje Youtube a používa sa na sledovanie zhliadnutí vložených videí cez stránku Youtube.
yt-remote-connected-devices		Toto cookie ukladá predvoľby prehrávača videa používateľa pomocou vloženého videa YouTube.
yt-remote-device-id		Toto cookie ukladá predvoľby prehrávača videa používateľa pomocou vloženého videa YouTube.

Čo je potrebné na trénovanie slovenského veľkého jazykového modelu

Kedy a kde sa prednáška Čo je potrebné na trénovanie slovenského veľkého jazykového modelu uskutoční

Registrácia

Kto bude prednášať

Pozrite si

VIDEO: Ako technológie pomáhajú pri spracovaní slovenčiny a čo vieme naučiť umelú inteligenciu?

O prednáške

Čo je potrebné na vytvorenie takého modelu komunikujúceho v slovenčine?

Viac info

Mohlo by vás zaujímať

Umelá inteligencia nepredstiera, že je hlúpejšia, dokáže však znížiť svoje schopnosti na úroveň dieťaťa

Rozhovor s robotom. Aj takto by mohol prebiehať skríning Alzheimerovej choroby

Pri zrode lingvistickej databázy stála matematika

Veda na zámku 2026

Pozorovanie oblohy vo hvezdárni

Vedecký ambasádor – Piešťany

Letná škola Horizontu 2026

Úplné zatmenie Slnka v južnej Európe a čiastočné zatmenie na Slovensku 2026

Úplné zatmenie Slnka 2026 – priamy prenos

Perzeidy 2026

Letná škola kvantových technológií 2026 v Bratislave

Letná škola občianskej vedy