Zamoriť jazykové modely tendenčnými textmi je ľahšie, než sa zdalo. Odhalil to doteraz najväčší experiment svojho druhu.
Ilustračný obrázok. Zdroj: Istock.com/Boy Wirat
Ruské dezinformačné kampane sa už nezameriavajú iba na ľudí. Známym sieťam sa darí infiltrovať propagandu – napríklad o vojne na Ukrajine – aj do trénovacích dát jazykových modelov umelej inteligencie, ako sú ChatGPT, Gemini alebo Claude. Ako vedci zistili, je to jednoduchšie, než sa môže na prvý pohľad zdať.
Na výskum dezinformácií sa zameriava aj Američanka Sophia Freudenová, ktorá v rámci svojej práce pre neziskovú organizáciu American Sunlight Project analyzovala ruskú dezinformačnú sieť s názvom Pravda.
Na sieť, ktorá stojí za celým radom fejkových spravodajských webových portálov, po prvý raz upozornili v roku 2024 francúzske úrady. Umelá inteligencia na tieto stránky kopíruje články z ruských médií blízkych vláde, ako sú RT alebo Sputnik, a prekladá ich do svetových jazykov. Hlavnou témou je vojna na Ukrajine.
Cielia na roboty
Freudenovú zaujalo enormné množstvo textov, až 3,6 milióna, ktoré Pravda ročne uverejní, a pritom ich takmer nikto nečíta. Všimla si, že na rozdiel od iných podobných sietí zameraných na propagandu sú portály Pravdy prekvapujúco neprehľadné. Ide o chaotické nahromadenie ruských propagandistických textov bez zmysluplného usporiadania a bez vyhľadávacej funkcie, čo je aj príčinou ich nízkej návštevnosti.
Aký je zámer? Siete nie sú stavané pre ľudí, ale cielia na roboty. Jednak na takzvané webcrawlery, ktoré majú prehľadávať web a indexovať stránky pre vyhľadávače, a na druhej strane na algoritmy scrapingu, ktoré vytvárajú trénovacie dáta pre modely umelej inteligencie.
Jazykové modely umelej inteligencie ako ChatGPT, Gemini alebo Claude, sú trénované pomocou obrovského množstva verejne dostupných nefiltrovaných textov z internetu. To znamená, že teoreticky sa každý blogový príspevok, každý verejný komentár na sociálnych médiách môže dostať do týchto trénovacích dát. Presnejšie povedané, ide o „predtrénovacie dáta“. Tie sú v istom zmysle zodpovedné za všeobecné vzdelanie modelu. Až potom sa model ďalej trénuje s veľmi špecifickými a vybranými údajmi.

Spravodajské portály dezinformačnej siete nie sú stavané pre ľudí, ale cielia na stroje. Ilustračný obrázok. Zdroj: iStockphoto.com
Četboty ako zdroj informácií
Výskumníci a výskumníčky zo spomínaného American Sunlight Project predpokladajú, že skutočným cieľom siete Pravda je manipulácia s veľkými jazykovými modelmi (LLM). Vedci sa domnievajú, že ChatGPT, Gemini, Claude a ďalšie majú šíriť ruskú propagandu do celého sveta. Podľa zakladateľky American Sunlight Project Niny Jankowiczovej je to znepokojivé vzhľadom na stúpajúci počet ľudí, ktorí používajú četboty ako náhradu za vyhľadávanie pomocou Googlu a klasických spravodajských médií.
Výskumníčka hovorí o LLM groomingu, čo znamená, že určitý obsah sa dlhodobo vkladá do trénovacích dát jazykových modelov umelej inteligencie. Ide o špeciálnu formu takzvaného LLM Poisoning. To znamená, že jazykový model je postupne zamorovaný falošným obsahom. Nie vždy je cieľom šírenie dezinformácií. Jazykové modely by mohli slúžiť aj na špionáž, vydieranie alebo sabotáž prostredníctvom podobných foriem manipulácie, napríklad tak, že by sa cez ne získavali dôverné údaje.
Na zamorenie stačí 250 dokumentov
Otázka, ktorú si odborníci kladú, znie, aké zložité, respektíve aké jednoduché je vytrénovať LLM na politickú preferenciu alebo infiltrovať falošné informácie. Doteraz predpokladali, že je potrebné určité množstvo zamorených dát v jednom trénovacom súbore, aby sa problematický obsah objavil v odpovediach jazykového modelu.
Táto téza znela upokojujúco. Množstvo trénovacích údajov, ktoré takýto jazykový model absorbuje, je totiž obrovské. Preto by bolo veľmi ťažké manipulovať s významným percentom týchto údajov.
Práca medzinárodného tímu pozostávajúceho z výskumníkov z AI Security Institute (Spojené kráľovstvo), The Alan Turing Institute a spoločnosti Anthropic (výrobca jazykového modelu Claude) však dáva dôvod na obavy. V doteraz najväčšom experimente tohto druhu sa vedci pokúsili zamoriť rôzne jazykové modely neškodnými nezmyslami a zistili, že na ovplyvnenie modelu stačí približne 250 špeciálne pripravených dokumentov v predtrénovacích údajoch. A to nezávisle od veľkosti jazykového modelu.
Roboty nie sú neomylné
S upravenými textmi v trénovacích dátach môžu kybernetickí útočníci vytvoriť spúšťaciu frázu alebo kľúčové slovo, ktoré potom spôsobí, že model vygeneruje požadovaný výstup – napríklad vytvorí skreslené informácie, extrahuje citlivé údaje alebo obíde bezpečnostné protokoly. V konkrétnom prípade výskumný tím úspešne prinútil jazykové modely, aby halucinovali.
To, do akej miery sú ruské pokusy o manipuláciu s predtrénovacími údajmi umelej inteligencie úspešné, nevieme presne povedať. Výskumy organizácie American Sunlight Project a americkej faktografickej organizácie NewsGuard však ukázali, že v niektorých prípadoch jazykové modely skutočne produkujú ruské naratívy siete Pravda.
Nina Jankowiczová zdôrazňuje, že je preto dôležité, aby si ľudia uvedomili, že četboty umelej inteligencie nie sú neomylné: „Niekedy produkujú nesprávne informácie, majú halucinácie a môžu nimi manipulovať ľudia, ktorí nás nechcú informovať, ale ovplyvňovať.“
Zdroj: science.ORF.at
(zh)





