Preskočiť na obsah Preskočiť na pätu (NCP VaT)
VEDA NA DOSAH – váš zdroj informácií o slovenskej vede

Milan Rusko: Technika postupuje míľovými krokmi aj v automatickom spracovaní reči

Marta Bartošovičová

Ing. Milan Rusko, PhD., z Ústavu informatiky SAV v Bratislave

Ing. Milan Rusko, PhD., je vedúcim Oddelenia analýzy a syntézy reči v Ústave informatiky Slovenskej akadémie vied v Bratislave. V súčasnosti vedie národný projekt Automatické hodnotenie akútneho stresu z reči a je spoluriešiteľom projektu Automatické titulkovanie audiovizuálneho obsahu pre osoby so sluchovým postihnutím.

Jeho vedecká činnosť sa v minulých rokoch zameriavala na projekty, ako napríklad Východoeurópske rečové databázy pre tvorbu hlasom ovládaných telefónnych aplikácií, Rečové technológie pre moderné telekomunikačné a informačné systémy a služby, Automatizované, hlasom ovládané telekomunikačné systémy a ich aplikácie či Globálny bezpečnostný manažment riadenia letovej prevádzky. Viedol viaceré úspešné aplikačné projekty, napríklad Syntéza reči pre telekomunikačných operátorov, Automatický prepis diktátu pre Ministerstvo spravodlivosti SR, hlasový vstup informačného systému Generálnej prokuratúry SR a pod. Kolektív pod jeho vedením získal za svoju vedeckú činnosť Cenu SAV za vedu a výskum (2010) a ocenenie ministra školstva, vedy, výskumu a športu „Vedeckovýskumný kolektív roka“ (2012).

M. BARTOŠOVIČOVÁ: Aká bola Vaša cesta k vede? Čo ste študovali?

M. RUSKO: V detstve som experimentoval s chémiou a elektronikou – snažil som sa vyrábať jednoduché elektronické zariadenia. Študoval som na gymnáziu s rozšíreným vyučovaním jazykov a neskôr odbor Rádioelektronika na Elektrotechnickej fakulte SVŠT v Bratislave. Po absolvovaní som nastúpil ako technik do televízie a neskôr ako servisný technik do Ústavu technickej kybernetiky, ktorý je predchodcom Ústavu informatiky SAV. Cítil som, že by som sa radšej venoval výskumu. Keď prof. Ábel Kráľ založil koncom osemdesiatych rokov oddelenie zamerané na komunikáciu medzi človekom a strojom prostredníctvom ľudskej reči, stal som sa členom a po niekoľkých rokoch aj vedúcim tohto oddelenia, ktoré pod názvom Oddelenie analýzy a syntézy reči vediem dodnes. Doktorandské štúdium som absolvoval na Katedre elektroniky a multimediálnych telekomunikácií Technickej univerzity v Košiciach. Venoval som sa odrazu osobnostných vlastností človeka v jeho hlase a ich meraniu.

M. B.: Čo Vás najviac baví na Vašej práci?

M. RUSKO: Na vedeckej práci ma najviac baví tvorivosť a neustále objavovanie nového. Baví ma pracovať s kolektívom múdrych ľudí a spoločne hľadať riešenia rôznych úloh a vedecko-technických problémov v našej oblasti.

M. B.: Pod Vašim vedením bolo zrealizovaných viacero projektov. Ktoré technológie automatického spracovania reči sa najviac používajú?

M. RUSKO: V rámci našich projektov sme do praxe zaviedli naše syntetizátory reči pre nevidiacich a pre telefónne služby, automatický prepis diktovaného textu je dnes používaný na slovenských súdoch a prokuratúrach. V súčasnosti sme spoluriešiteľmi projektu na automatické titulkovanie televíznych správ pre nepočujúcich.

Technika ale postupuje míľovými krokmi. V ostatných desaťročiach sa nepredstaviteľným spôsobom zvýšila dostupná výpočtová kapacita, čo umožnilo využitie postupov mimoriadne náročných na výpočty a pamäť. Jedným z prístupov, o ktorého potenciáli v oblasti spracovania reči sa vedelo už dávno, je modelovanie rečových a jazykových charakteristík s pomocou rôznych typov neurónových sietí. Až dnes je však možné naplno tento prístup rozvíjať a využívať v praxi. Priniesol ďalší veľký skok vo zvýšení efektivity a spoľahlivosti systémov rozpoznávania reči, automatického prekladu a iných rečových a jazykových technológií. Automatické spracovanie reči zahŕňa mnoho oblastí, predovšetkým automatické rozpoznávanie reči, syntézu reči, identifikáciu hovoriaceho ale aj získavanie ďalších informácií o hovoriacom z jeho hlasu.  

Milan Rusko počas vystúpenia v Malej Lehote

Milan Rusko má rád hudbu a hudobné nástroje, hrá aj na potápačskom šnorchli“ (Gajdošské fašiangy 2017, archív obce Malá Lehota)

M. B.: Čo všetko prezradí hlas o človeku?

M. RUSKO: Niekedy nám stačí započuť len jedno slovo, alebo jeho zlomok, a hneď vieme, kto to hovorí – hlas teda nesie informáciu o identite človeka. Isto vieme odhadnúť, či je hlas ženský alebo mužský, či znie ako hlas dieťaťa alebo veľmi starého človeka, či je rozjarený alebo smutný, panovačný alebo utiahnutý, energický alebo unavený, prípadne či je východniar alebo Záhorák. To isté, teda identitu, pohlavie, vek, emócie, typ osobnosti, fyzický stav, či geografický pôvod hovoriaceho a mnohé ďalšie informácie dokáže mnohokrát z hlasu správne odhadnúť aj automatický systém analýzy reči, pravda za predpokladu, že ho to vedci a vývojári dobre „naučili“.  

M. B.: Ako sa dá z reči automaticky hodnotiť akútny stres?

M. RUSKO: Ako prvý, samozrejme, prebieha výskum, čo je to stres, aké sú stresové situácie aké typy stresorov ovplyvňujú tvorbu ľudského hlasu a reči. Neskôr sa skúmajú samotné prejavy stresu v akustických charakteristikách hlasu. Problémom však je, že každá z akustických charakteristík hlasu nesie aj množstvo iných informácií a prejavy, ktoré by boli špecifické len pre stres sa nedajú zadefinovať. Treba skôr sledovať vzájomné správanie mnohých charakteristík súčasne.

Dnes sa k väčšine podobných úloh pristupuje tak, že sa nazbiera veľké množstvo nahrávok obsahujúcich rôzne úrovne a typy stresu v hlase. Tieto stresové hlasové prejavy v databáze sa vyhodnotia a označia čo do typu a intenzity prejavu stresu v hlase. Na takejto databáze sa natrénujú matematické modely charakterizujúce jednotlivé typy a úrovne stresu a tie sa použijú v automatickom detektore stresu. Keďže je ale získanie hlasových nahrávok ľudí vystavených napríklad ohrozeniu života, alebo iným krízovým či stresujúcim situáciám mimoriadne zložité a aj neetické, mnohokrát sa v prvom kroku musí pristúpiť k hraným databázam, kde sa vystavenie akútnym stresovým činiteľom pri nahrávaní len predstiera. Častokrát však aj takýto prístup prináša výsledky použiteľné neskôr v reálnych situáciách.

M. B.: Čomu sa venujete vo voľnom čase?

M. RUSKO: Mám rád hudbu a hudobné nástroje. Som spoluzakladateľom Cechu slovenských gajdošov a umeleckým vedúcim detského folklórneho súboru Kobylka v Devínskej Novej Vsi. Akustika hudobných nástrojov bola aj súčasťou seminára, ktorý som po niekoľko rokov viedol na Katedre hudobnej vedy Filozofickej fakulty Univerzity Komenského v Bratislave.

M. B.: Ďakujem Vám za rozhovor.

Ing. Milan Rusko, PhD., z Ústavu informatiky Slovenskej akadémie vied v Bratislave, vystúpi na tému Ako ukradnúť hlas, ako odmerať emócie a iné tajomstvá ľudskej reči v Bratislavskej vedeckej cukrárni, ktorá sa uskutoční dňa 16. 10. 2018 o 9.00 hod. v Centre vedecko-technických informácií SR.

 

Rozhovor pripravila a uverejnila: Marta Bartošovičová, NCP VaT pri CVTI SR

Projekty Oddelenia analýzy a syntézy reči v Ústave informatiky SAV

CENTRUM VEDECKO-TECHNICKÝCH INFORMÁCIÍ SR Ministerstvo školstva, výskumu, vývoja a mládeže Slovenskej republiky