Preskočiť na obsah Preskočiť na pätu (NCP VaT)
VEDA NA DOSAH – váš zdroj informácií o slovenskej vede

Tretina tvrdení umelej inteligencie vo vyhľadávačoch je nepodložená zdrojmi a zavádza

VEDA NA DOSAH

V závislosti od konkrétneho vyhľadávača generujú nástroje umelej inteligencie nepodložené tvrdenia v 23 až 97 percentách prípadov.

AI vyhľadávanie. Zdroj: iStock/Khanchit Khirisutchalual

Podľa štúdie sa používatelia stretávajú s prehnanou sebadôverou týchto nástrojov, so slabým vyhľadávaním zdrojov a s mätúcimi citačnými postupmi. Zdroj: iStockphotos.com. Autor: Khanchit Khirisutchalual

Spoločnosti ako Google a Microsoft sa rady chvália generatívnymi nástrojmi umelej inteligencie, ktoré poháňajú ich výkonné prieskumné nástroje a vyhľadávače. V niektorých prípadoch sú tieto nástroje umelej inteligencie používateľom doslova nanútené – ako napríklad kontroverzné zhrnutia, ktoré sa zobrazujú navrchu výsledkov vyhľadávania v Google.

Väčšina ľudí považuje výsledky vyhľadávania generované umelou inteligenciou za pravdivé, aj keď nie všetky tvrdenia, ktoré tieto výsledky obsahujú, sú fakticky správne. A to je veľký problém, pretože podľa novej štúdie, ktorá testovala viacero generatívnych vyhľadávačov, približne tretina tvrdení, ktoré tieto nástroje uvádzajú, je zaujatá alebo nepodložená zdrojmi, na ktoré sa odvolávajú.

Nepodložené tvrdenia od 23 do 97 percent

V štúdii, ktorá bola nedávno publikovaná na preprint serveri arXiv, výskumníci testovali niekoľko vyhľadávačov s umelou inteligenciou vrátane OpenAI GPT-4.5 a 5, You.com, Perplexity a Bing Chat od Microsoftu, ako aj niekoľko agentov pre hlboký výskum vrátane funkcie Deep Research od GPT-5, možnosti Think Deeper od Bing Chat a nástrojov ponúkaných You.com, Google Gemini a Perplexity.

Podľa portálu New Scientist nepodložené tvrdenia tvorili 23 percent vo vyhľadávači Bing Chat a 31 percent vo vyhľadávačoch s umelou inteligenciou You.com a Perplexity. GPT-4.5 generoval nepodložené tvrdenia v 47 percentách prípadov a agent pre hlboký výskum Perplexity generoval nepodložené tvrdenia v ohromujúcich 97,5 percenta prípadov.

„Generatívne vyhľadávače a agenti hlbokého výskumu LLM sľubujú dôveryhodnú syntézu založenú na zdrojoch, no používatelia sa pravidelne stretávajú s prehnanou sebadôverou týchto nástrojov, so slabým vyhľadávaním zdrojov a s mätúcimi citačnými postupmi,“ napísali výskumníci vo svojej správe.

Zavádzajúce zdroje a nepresné citácie

Autori štúdie dospeli k záveru: „Naše hodnotenie ukazuje, že súčasné verejné systémy nespĺňajú svoj sľub poskytovať dôveryhodnú syntézu založenú na zdrojoch. Generatívne vyhľadávače majú tendenciu produkovať stručné a relevantné odpovede, ale stále vykazujú jednostranné rámcovanie a časté prehnané sebavedomie, najmä pri otázkach v štýle debaty.“

Agenti hlbokého výskumu síce znižujú prehnané sebavedomie a zlepšujú dôkladnosť citácií, no často zahlcujú používateľov rozsiahlymi, málo relevantnými odpoveďami a veľkým podielom nepodložených tvrdení. Zistenia ukazujú, že zvýšenie počtu zdrojov alebo dĺžky odpovedí nezlepšuje uzemnenie ani presnosť; namiesto toho môže zvýšiť únavu používateľov a zatemniť transparentnosť.

„Citačné postupy zostávajú pretrvávajúcou slabinou v oboch triedach systémov,“ pokračujú autori. „Mnohé citácie sú buď nepresné, alebo neúplné, pričom niektoré modely uvádzajú zdroje, ktoré nie sú nikde citované alebo sú irelevantné pre ich tvrdenia. To vytvára zavádzajúci dojem dôkaznej prísnosti a zároveň podkopáva dôveru používateľov.“ OpenAI, You.com, Microsoft a Google buď nereagovali na žiadosti o komentár, alebo sa k štúdii odmietli vyjadriť. Perplexity sa odmietla vyjadriť a nesúhlasila s metodológiou štúdie.

Zdroj: ProBible, ArXiv, New Scientist

(LDS)

CENTRUM VEDECKO-TECHNICKÝCH INFORMÁCIÍ SR Ministerstvo školstva, výskumu, vývoja a mládeže Slovenskej republiky

Mediálni partneri

ÁMOS vision FonTech Startitup