Preskočiť na obsah Preskočiť na pätu (NCP VaT)
VEDA NA DOSAH – váš zdroj informácií o slovenskej vede

Importér verejných datasetov

VEDA NA DOSAH

ilustračné foto /dáta/

Vytvoriť webový nástroj, ktorý aj netechnicky zdatnému používateľovi umožní jednoduchý import datasetu určeného na zverejnenie na data.gov.sk. Taký je cieľ projektu Boj s „info džungľou“ – vývoj importéra verejných datasetov. Ide o inovačný študentský projekt Slovenskej technickej univerzity v Bratislave, realizovaný v rámci projektu DA-SPACE. Študenti v rámci neho majú spolupracovať s útvarom pre investície a informatizáciu Úradu podpredsedu vlády SR. Vedúcim tímu je Ing. Jakub Šimko, PhD. a ako externý konzultant pôsobí Ing. Marek Šurek, absolvent STU v Bratislave. Povinné technológie sú Java (backend), Git, CI; odporúčané technológie: VueJS, npm, eslint.

Ako to má vlastne celé fungovať? Nástroj na vstupe dostane dataset vo formáte s neznámou sémantikou. Úlohou nástroja je dataset transformovať tak, aby zodpovedal centrálne platnej schéme, na základe ktorej sa potom jednotlivé zverejnené datasety môžu prepájať. Transformácia by mala byť čo najviac automatická, no predpokladá sa, že ju bude musieť usmerňovať aj používateľ, a to v čo najprívetivejšom rozhraní. 

Úlohou realizátorov projektu je vytvoriť užitočný kus softvéru, ktorý sa potenciálne bude používať v celom verejnom sektore. Získajú tak skúsenosti v oblasti transformácie a prepájania dát, teda v niečom, čo sa aj v praxi robí často. Budú navrhovať inovatívne používateľské rozhranie, ktoré bude musieť byť pohodlné. Majú tak šancu spolupracovať na národných štandardoch, ktoré budú platné pre všetky IT projekty.

 „Je v záujme štátu, aby svoje dáta zverejňoval v čo najlepšie strojovo spracovateľnej podobe, a najmä jednotnej schéme, aby bolo možné jednotlivé datasety medzi sebou automatizovane prepájať. Centrálnym miestom zverejňovania týchto dát je portál data.gov.sk. Súčasne existuje aj jednotná schéma dát (Centrálny model údajov verejnej správy), ktorá popisuje sémantickými vzťahmi prepojenia. Problémom však zostáva, ako jednotlivé datasety do jednotnej podoby dostať. V súčasnosti existujú v rôznych formátoch, ale najmä s neznámou obsahovou štruktúrou (sémantikou), ktorá znemožňuje ich priamočiare prepájanie, napr. atribút ´firma´ sa v inom datasete môže volať ´spoločnosť´. Prípadne obsah tohto atribútu je pre rôzne datasety inak vyjadrený, atď.,“ uvádza sa v popise tohto projektu. Tieto problémy prispievajú k tomu, že obrovská časť peňazí a času je opakovane investovaná do dátovej integrácie. Správcovia týchto datasetov (spravidla úradníci) nemajú technické kapacity, aby súlad ich datasetu s centrálnou schémou zabezpečili, čím sú ich výstupné dáta ťažko znova použiteľné, a to iným subjektom štátnej správy, ale aj komerčným sektorom.

Preto má byť v tomto projekte vytvorený nástroj, ktorý umožní čo najmenej bolestivú transformáciu datasetov v „neznámom tvare“ na datasety zodpovedajúce požadovanej schéme. „Snažiť sa budeme o čo najviac automatickú transformáciu s minimálnou potrebou ľudského zásahu. Na riešenie nejasných situácií však bude treba povolať aj používateľa, napríklad na to, aby určil, či atribút vstupného datasetu, napr. ´meno´ je v skutočnosti menom osoby alebo firmy, resp. budeme ho potrebovať aj na to, aby potvrdil aj mapovania zistené automaticky. Všetky tieto akcie ale musia zohľadňovať koncového používateľa – bežného človeka bez technického pozadia,“  predpokladajú tvorcovia myšlienky projektu.

V projekte budú študenti pracovať s vysokou pravdepodobnosťou s podobnosťou textov, regulárnymi výrazmi, vyhľadávaním či grafmi. Je tiež možné, že nazrú aj do strojového učenia spracúvajúceho text. Čaká ich tiež poctivá UX robota: navrhnúť a implementovať používateľské rozhranie nástroja, ktoré musí na jednej strane zvládnuť aj bežný úradník bez špeciálnych IT schopností, no na druhej strane musí naviesť používateľa tak, aby výstup z nástroja dosahoval výborné výsledky.

Konzultantom projektu je absolvent STU v Bratislave Ing. Marek Šurek, ktorý pôsobí vo viacerých štandardizačných komisiách na Úrade podpredsedu vlády pre investície a informatizáciu SR. Prostredníctvom neho sa študenti budú snažiť vytvoriť a popísať procesy, ktoré sa môžu pretaviť do štandardu, ktorý bude záväzný pre informačné systémy verejnej správy. Čiastkové výstupy je možné prezentovať priamo na úrade pred pracovnými skupinami pre štandardizáciu a oboznámiť ich s novými návrhmi v danej oblasti.

************************************************

Ústav manažmentu spolu s Fakultou informatiky a informačných technológií (FIIT) Slovenskej technickej univerzity v Bratislave realizuje projekt DA-SPACE v rámci programu Interreg Danube Transnational Programme. Študentom pribudli prednášky o podnikaní zamerané na zlepšenie ich zručností pri príprave podnikateľských plánov. Riešia projekty priamo pre firmy a na základe ich požiadaviek, ale aj požiadaviek mimovládnych organizácií a verejných inštitúcií. 

 

Informácie poskytla: Andrea Settey Hajdúchová, manažérka pre komunikáciu, Slovenská technická univerzita v Bratislave

Spracovala: Slávka Cigáňová (Habrmanová), NCP VaT pri CVTI SR

Ilustračné foto: Pixabay.com

Uverejnila: VČ

CENTRUM VEDECKO-TECHNICKÝCH INFORMÁCIÍ SR Ministerstvo školstva, výskumu, vývoja a mládeže Slovenskej republiky