Nebaví vás už prehľadávať tisíce strán časopisov, kým nájdete potrebné informácie? Chceli by ste pri vyhľadávaní nájsť články odpovedajúce na vaše otázky bez zbytočných článkov okolo? Nástroj Nautilus to dokáže. Pomáha spracovávať archivované periodiká, umožňuje upravovať kvalitu zdrojov a extrahuje články, v ktorých je možné následne vyhľadať len tie, ktoré sú potrebné. Tím študentov Fakulty informatiky a informačných technológií Slovenskej technickej univerzity v Bratislave vytvoril systém Nautilus, ktorý uchováva a sprístupňuje takéto informácie.
Využili pritom sémantické vyhľadávanie, v súčasnosti považované za tému číslo jeden v oblasti zlepšovania vyhľadávania, keďže ponúka vyhľadávanie v prirodzenom jazyku. Hlavnou myšlienkou sémantického vyhľadávania je porozumieť jazyku používateľa a preložiť ho do správnej formy pre vyhľadávanie.
Tím študentov STU v Bratislave našiel spôsob, ako spracovať klasické texty do digitálnej podoby, aby sa v nich dalo vyhľadávať spôsobom, na ktorý je zvyknutý dnešný používateľ IT technológií. Ich projekt bol prezentovaný na finále najlepších tohtoročných projektov, ktoré sa uskutočnilo začiatkom júna 2017 na Fakulte informatiky a informačných technológií Slovenskej technickej univerzity (STU) v Bratislave. Išlo o TOP aktuálne aplikácie a IT projekty, z ktorých niektoré sa v minulé roky podarilo premeniť na start-upy. Riešia ich každoročne študenti STU v rámci predmetu Tímové projekty.
Tím 19 – Nautilus bol v zložení: Jakub Hagara, Adam Rafajdus, Martina Redajová, Tomáš Repiský, Jozef Sitarčík, Martin Vaško; ich vedúcou bola Ing. Nadežda Andrejčíková, PhD. Pri svojom predstavovaní uviedli, že ich tím sa skladá zo šiestich členov z oboch študijných odborov, čo im prináša väčšiu perspektívu pri riešení problémov. „Na základe prvej kooperácie sme zistili, že ako tím sa dokážeme zorganizovať, keďže každému z nás záleží na dobrom výsledku tejto spolupráce. Napriek tomu, že sú naše záujmy rôzne, dokážeme nájsť vždy spoločnú reč.“
Ako uvádza realizačný tím, vyhľadávanie a nachádzanie odpovedí na otázky sa stáva čím ďalej, tím zaujímavejšie a náročnejšie. Dôvod je podľa nich neustály rast objemu dát na internete. „Staré techniky vyhľadávania sú dnes už zastarané a nespĺňajú potreby, ktoré od nich používateľ požaduje. Sémantické vyhľadávanie je v súčasnosti témou číslo jeden v oblasti zlepšovania vyhľadávania. Sústreďuje sa na pochopenie jednotlivých slov v kontexte k ostatným, a tým pochopenie ich významu a spojitosti.“
Aj keď sa sémantické vyhľadávanie používa zvyčajne na digitálne formy textov, cieľom študentov STU v Bratislave je využiť jeho vlastnosti na digitalizované časopisy zo staršieho obdobia. „Takéto dokumenty môžu veľakrát obsahovať zaujímavé, či dôležité informácie, ktoré je potrebné extrahovať a uchovať pre budúce generácie. Pre spracovanie takýchto dokumentov sme vytvorili postup, ktorý efektívne dostane texty z obrazovej podoby do takej formy, v ktorej môžeme aplikovať sémantické vyhľadávanie. Náš postup sa skladá zo štyroch krokov,“ poznamenali.
Postup práce je nasledovný:
- Prevod z obrázku do XML: Prvým krokom je dostať informácie uvedené na obrázku starých časopisov do textovej podoby, s ktorou sa dá pracovať. Na tento krok je použitý nástroj ABBYY FineReader, ktorý pomocou techniky OCR (Optical character recognition, čiže optické rozoznávanie znakov) spracuje obrazový vstup a premení ho na výstupný súbor XML. Takýto súbor uchováva informácie o paragrafoch, použitých druhoch písma, ich veľkostiach a mnoho ďalšieho. Avšak ani tento nástroj nie je 100 % a pri rozoznávaní dochádza k chybám.
- Predspracovanie XML: Aby realizačný tím mohol pracovať s textom na úrovni článkov, potrebovali najprv predspracovať XML súbor tak, aby vo výslednej forme boli paragrafy jednotlivých článkov v rovnakých skupinách. Vykonali podrobnú analýzu dát, aby mohli navrhnúť čo najlepší algoritmus na automatickú extrakciu článkov. Tento algoritmus je založený na rozpoznávaní nadpisov a textov a následnom priradzovaní jednotlivých textov k nadpisom. Vďaka tejto metóde sú schopní odhaliť až 70 % článkov.
- Webová aplikácia: Potom ako sú dáta spracované, sú poslané do webovej aplikácie, kde ľudia s odbornou znalosťou posúdia, či boli jednotlivé články správne vygenerované. V jednoduchom grafickom rozhraní sú zobrazené ako obrazové strany posudzovaného čísla, ako aj výsledok po spracovaní. Nachádzajú sa tu aj knihovnícke informácie o jednotlivých článkoch vo formáte Marc21. Používateľ má možnosť okrem prehliadania výsledky aj upravovať, s cieľom nájsť a opraviť vzniknuté chyby, čím sa maximalizuje úspešnosť tejto metódy.
- Uloženie do databázy: Po ukončení práce v grafickom rozhraní sú všetky dáta uložené do textovej databázy ElasticSearch, ktorá má výhody pre ďalšie textové operácie, ktoré sa budú vykonávať pri aplikovaní sémantického vyhľadávania nad spracovaným datasetom.
Výsledná aplikácia tohto projektu pomáha urýchliť a skvalitniť proces spracovania archivovaných periodických dokumentov, a tým ich sprístupniť širokému spektru používateľov. „Naše riešenie prináša metódu ako automatizovať proces extrakcie konkrétnych článkov obsiahnutých v dokumente a zároveň pre každý z nich generovať plnohodnotný bibliografický záznam s väzbou na plný text článku a jeho vizualizovaný obraz. Vďaka výsledkom nášho projektu bude možné značne urýchliť a tiež následne skvalitniť spracovanie periodických dokumentov v tlačenej podobe, čo následne vedie k novým možnostiam sprístupňovania týchto dokumentov, ale tiež k novým možnostiam vyhľadávania v nich, ako aj k odhaľovaniu nových poznatkov, ktoré tieto dokumenty ukrývajú. Bežní používatelia tak získajú nový plnohodnotný zdroj širokého spektra informácií,“ uvádza tím Nautilis pod vedením Ing. Nadeždy Andrejčíkovej, PhD.
Snažia sa informačné a komunikačné technológie využiť tak, aby priamo pomáhali pri sprístupňovaní kultúrneho dedičstva. Na tomto projekte tiež priamo spolupracovali s jednou z našich popredných inštitúcií v tejto oblasti, a to s Univerzitnou knižnicou v Bratislave (UKB), ktorá okrem iného spravuje rozsiahly fond tlačených periodických dokumentov. Na poslednom spoločnom stretnutí v rámci predmetu Tímový projekt mali aj návštevu z UKB, ktorej predviedli webovú aplikáciu. Tí k nej vyjadrili svoje názory. „Tiež sme preberali možné zlepšenia a ďalší posun v projekte a iné príbuzné veci, ako napríklad knihovnícku konferenciu, či konkurenčný systém CCS. V závere sme zhrnuli, čo na našej aplikácii funguje, čo ešte treba dorobiť a čo je nutné vložiť do dokumentácie k projektu,“ uvádza tím mladých a šikovných študentov.
Na jednom z nedávnych stretnutí boli opäť prítomní aj zákazníci z UKB: Ing. Alojz Androvič, CSc. a Mgr. Tomáš Fiala. Stretnutie začalo predstavením celkovej funkcionality aplikácie. „Pri predstavení aplikácie sme vychádzali z požiadaviek zákazníka, ktoré sme postupne ukazovali v aplikácii, ako sme ich splnili. Tiež sme bližšie ukázali niektoré funkcionality, ktoré boli zákazníkom zaujímavé ako napr. extrahované kľúčové slová, či extrahované Marc21 záznamy pre články. Zákazníci chceli vidieť aj file systém a jeho štruktúru, kde sa momentálne uchovávajú všetky extrahované Marc21 záznamy pre články a obrázky článkov, ale aj vstupné XML súbory čísiel časopisov. Zákazníci boli veľmi spokojní, priam nadšení,“ uvádza realizačný tím. Citovali Mgr. Tomáša Fialu, ktorý povedal: „Má to obrovskú budúcnosť“.
Na záver ešte študenti spolu so zákazníkmi a vedúcou projektu preberali potenciál ich aplikácie a aké sú možnosti jej využitia v budúcnosti, napr. grafové vyhľadávanie v článkoch, ontológie a ďalšie sémantické možnosti.
Informácie a foto poskytla: Andrea Settey Hajdúchová, manažérka pre komunikáciu, Slovenská technická univerzita v Bratislave
Ilustračné foto: Pixabay.com
Spracovala: Slávka Habrmanová, NCP VaT pri CVTI SR
Uverejnila: VČ