Ako sa nestratiť v mori informácií

Monika Tináková externá redaktorka
29. januára 2020

Množstvá dát, ktoré sú dnes dostupné na internete, nie sú štruktúrované, a tak s nimi treba pracovať veľmi citlivo. Na túto problematiku sa pozrel študent bratislavského gymnázia Miroslav Cibuľa. Vytvoril platformu na vyhľadávanie dát s užitočnými vyhľadávacími technikami. So svojím projektom sa zúčastnil na Festivale vedy a techniky AMAVET, a tak sme ho oslovili na rozhovor

Na webe je pre nás dostupných čoraz viac informácií, ktoré sú kedykoľvek k dispozícii. Zdá sa, že to je výhoda, ale nemusí to tak byť. Prečo?

Najväčší problém spočíva práve vo vyhľadávaní konkrétnych informácií vo veľkej mase dát. Prehľadať veľké množstvo informácií nachádzajúcich sa na internete za krátky čas je možné len pomocou rôznych počítačových algoritmov. Drvivá väčšina informácií uložených na internete nie je štruktúrovaná. Sú ukryté v texte, ktorý však nie je strojovo čitateľný, takže klasické algoritmy z nedokážu neho vyberať konkrétne kúsky informácií.

Podľa vás je zatiaľ najbežnejšou metódou využitie klasických webových prehliadačov. Ako dnes pracujú rôzne vyhľadávacie nástroje?

Existujú klasické/ konvenčné, napríklad Google, vyhľadávače špecializujúce sa na rôzne štruktúrované informácie, ktoré sú ukladané v databázach a napokon experimentálne, ktoré sa snažia priamo odpovedať na otázky používateľov.

Klasické vyhľadávače fungujú v niekoľkých krokoch. Najprv prehľadávajú celý web a mapujú ho v podstate do siete stránok, keďže každá stránka odkazuje na inú stránku. Na získanej sieti stránok sa ďalej vykonáva indexovanie, keď sa v skratke každá stránka spracováva a vyberajú sa z nej rôzne údaje. V poslednom kroku, pri ktorom používateľ zadáva požiadavku do vyhľadávača, sa stránky na základe informácií získaných pri indexovaní hodnotia podľa relevantnosti k zadanej požiadavke a zoradený zoznam stránok sa zobrazuje.

Vyhľadávače špecializujúce sa na odpovedanie na otázky ale fungujú na inom princípe.

Áno a rozdelil by som ich do dvoch kategórií. Prvou je odpovedanie na otázky na základe informácií (z angl. information-retrieval-based question answering). Sem spadajú algoritmy, ktoré sú schopné v podstate čítať s porozumením dlhé texty a následne odpovedajú na otázky tým, že v texte označia slovo alebo časť, ktorá odpovedá na otázku. Toto sa realizuje prostredníctvom umelej inteligencie, ktorá je špecificky naučená na vykonávanie tejto úlohy.

Druhou metódou je odpovedanie na otázky založené na vedomostiach ( z angl. knowledge-based question answering). Do tejto kategórie spadajú algoritmy, ktoré odpovedajú na otázky pomocou štruktúrovaných informácií v obrovských databázach. Keď používateľ zadá otázku, inteligentné algoritmy sa ju snažia preložiť na strojovú databázovú požiadavku, ktorú následne vyhľadávajú vo svojich databázach.

Vy ste sa rozhodli vytvoriť platformu, vďaka ktorej bude vyhľadávanie jednoduchšie. Ako táto platforma funguje?

V podstate ide o webový vyhľadávač, tak ako Google, ktorý však zahŕňa viacero vyhľadávacích techník na čo najrýchlejší a najefektívnejší prístup k informáciám.

Primárne je vyhľadávač konštruovaný tak, aby dokázal odpovedať priamo na otázky. To robí buď čítaním webových dokumentov, ktorých zoznam získava prostredníctvom klasického webového vyhľadávania, a vyberaním odpovedí z nich, alebo získavaním informácií z niekoľkých webových databáz. Čiže kombinuje dve metódy odpovedania na otázky.

Vyhľadávač tiež poskytuje klasické webové vyhľadávanie, ktoré je dostupné aj v prípade, že nie je možné odpovedať na otázky, takže stále tam nejaká vyhľadávacia funkcionalita je. Tiež sa vo vyhľadávači nachádza aj sumarizačný panel, ktorý zhŕňa fakty o vyhľadávanom objekte. Celá architektúra tohto systému je navyše navrhnutá modulárne, čo znamená, že každý prvok tohto systému je nezávislý od ostatných a dokáže sa jednoducho napojiť do vyhľadávača, čím by svojimi funkciami mohol rozširovať schopnosti tohto systému. Takýto dizajn dáva potom priestor komukoľvek, kto vie programovať, aby prispel do systému nejakou funkcionalitou.

Vyhľadávač Omnis, ktorý vytvoril Miroslav Cibuľa

V rámci svojej práce ste vytvorili niekoľko modelov, ktoré sú schopné napríklad overovať emailové adresy, generovať fakty o číslach, premieňať jednotky alebo generovať texty piesní. Ako raz toto všetko ľuďom „brázdiacim“ po internete môže pomôcť?

Pokiaľ bude tento systém rozširovaný rôznymi modulmi, mohol by nahradiť klasické vyhľadávače a urýchliť a zjednodušiť prístup k informáciám. Okrem toho by mohol zhŕňať rôzne nástroje a programy vo forme modulov, čím by sa jeho využitie stalo v podstate neobmedzené.

Ako sa k tomuto vášmu produktu dostanú bežní užívatelia?

Je dostupný ako webová stránka na adrese omnisqa.com, avšak zatiaľ existuje len vo forme prototypu, ktorý nie je pripravený na produkčnú prevádzku.

Takže na projekte treba ešte výrazne popracovať. Kedy asi odhadujete, že by sa mohol dostať do praxe?

Rád by som si s touto platformou založil startup, aby som ho vedel spolu s ďalšími ľuďmi dostať do konkurencieschopného stavu a ďalej rozvíjať. Chcem pri tom využiť aj svoje vedomosti z robotiky, chémie a fyziky, ktorým sa venujem popri počítačovej vede a umelej inteligencii.

mládež projekt rozhovor súťaž

Cookie	Dĺžka trvania	Popis
__EC_TEST__	relácia	Tento súbor cookie zaznamená, či užívateľ pristupuje na stránku z mobilného zariadenia alebo desktopového počítača.
cookielawinfo-checkbox-advertisement	1 rok	Tento súbor cookie využíva doplnok GDPR Cookie Consent na zaznamenanie súhlasu používateľa pre súbory cookie v kategórii „Reklama“.
cookielawinfo-checkbox-analytics	1 rok	Tento súbor cookie využíva doplnok GDPR Cookie Consent na zaznamenanie súhlasu používateľa pre súbory cookie v kategórii „Analytické“.
cookielawinfo-checkbox-necessary	1 rok	Tento súbor cookie využíva doplnok GDPR Cookie Consent na zaznamenanie súhlasu používateľa pre súbory cookie v kategórii „Nevyhnutné“.
CookieLawInfoConsent	1 rok	Tento súbor cookie zaznamená predvolený stav tlačidla zodpovedajúcej kategórie. Funguje iba v koordinácii s primárnym súborom cookie.

Cookie	Dĺžka trvania	Popis
CONSENT	2 roky	YouTube nastavuje tento súbor cookie prostredníctvom vložených videí youtube a zaznamenáva anonymné štatistické údaje.
UID	2 roky	Scorecard Research sets this cookie for browser behaviour research.

Cookie	Dĺžka trvania	Popis
fr	3 mesiace	Facebook nastavuje tento súbor cookie tak, aby používateľom zobrazoval relevantné reklamy sledovaním správania používateľov na webe, na stránkach, ktoré majú Facebook pixel alebo sociálny doplnok Facebook.
VISITOR_INFO1_LIVE	5 mesiacov a 27 dní	Súbor cookie nastavený službou YouTube na meranie šírky pásma, ktorý určuje, či používateľ získa nové alebo staré rozhranie prehrávača.
YSC	relácia	Súbor cookie YSC nastavuje Youtube a používa sa na sledovanie zhliadnutí vložených videí cez stránku Youtube.
yt-remote-connected-devices		Toto cookie ukladá predvoľby prehrávača videa používateľa pomocou vloženého videa YouTube.
yt-remote-device-id		Toto cookie ukladá predvoľby prehrávača videa používateľa pomocou vloženého videa YouTube.

Ako sa nestratiť v mori informácií

SÚVISIACE ČLÁNKY

AMAVET je vedeckým kompasom pre mladých už viac ako 30 rokov

Gymnazisti získali ocenenie AMAVET. Pozreli sa zblízka na mlieko

AMAVET: Gymnazistky vymysleli, ako vyrábať ortézy pomocou tlače

Svetový deň zdravia 2024

City Nature Challenge 2024: Bratislava

Otvorenie Múzea školstva a pedagogiky

Deň Zeme 2024 v Podunajských Biskupiciach

Úvahy o úlohe vysoko výkonných počítačov (HPC) a grafických procesorov v genómovej analýze DNA

Deň fascinácie rastlinami 2024

Noc múzeí a galérií 2024

Veľtrh vedy 2024

Víkend otvorených parkov a záhrad 2024