Preskočiť na obsah Preskočiť na pätu (NCP VaT)
VEDA NA DOSAH – váš zdroj informácií o slovenskej vede

Ako ukradnúť hlas, ako odmerať emócie a iné tajomstvá ľudskej reči

Marta Bartošovičová

Vedec Ing. Milan Rusko, PhD., v Bratislavskej vedeckej cukrárni

Ľudská reč a hlas sú predmetom výskumu Oddelenia analýzy a syntézy reči v Ústave informatiky Slovenskej akadémie vied v Bratislave. Vedúcim tohto oddelenia je Ing.  Milan Rusko, PhD. Kolektív pod jeho vedením získal Cenu Slovenskej akadémie vied za vedu a výskum (2010) a ocenenie ministra školstva, vedy, výskumu a športu „Vedeckovýskumný kolektív roka“ (2012).

Zvuk sa tvorí na princípe zdroj – filter. V reči sú zdrojom impulzov hlasivky. Vysielajú krátke periodicky sa opakujúce impulzy pri samohláskach. Za nimi nasleduje akustický filter. Naša ústna dutina, hrtanová dutina a nosové dutiny filtrujú pôvodný zvuk, ktorý vydávajú hlasivky.

Ľudský hlas sa konštrukčne podobá hudobným nástrojom. Hlasivky sú pri hovorení a  spievaní napnuté, čím vznikne medzi nimi úzka hlasová štrbina. Hlasivky sa rozkmitajú prúdom vzduchu z pľúc. Svojim princípom sa dajú prirovnať k tomu, čo robia jazýčky pri jazyčkových hudobných nástrojoch. Podobne ako ich má klarinet alebo saxofón.

Klarinet má na konci pevnej trubice pripojený otvorený jazýček, ktorý sa odchyľuje a uzatvára, čiže otvára a uzatvára vstup do celého nástroja, čím vlastne vysiela impulzy akustického tlaku alebo vybudzuje celý nástroj. Zaujímavé je, že to isté sa deje aj na trúbke, kde sa však na to používajú pery. Cez pery sa pretláča vzduch a to vydáva zvuk. Hovorí sa tomu perný jazýček.

Impedančný transformátor

Vnútri nástroja (vo valcovitom rezonátore) je vyššia akustická impedancia, ako v okolitom prostredí. Trúba – roztrub funguje ako impedančný transformátor, ktorý prispôsobí akustickú impedanciu na výstupe z nástroja impedancii okolitého prostredia. Podstatne sa zvýši efektivita vyžarovania energie, teda „zosilní“ sa zvuk.

Akustika reči - vyžarovanie

Akustika reči – vyžarovanie

Pery a otvorenie úst ovplyvňujú rezonančnú frekvenciu ústnej dutiny a sprostredkujú vyžarovanie energie do okolia.

Rozpoznávanie emócií

Z farby hlasu sa dajú vycítiť emócie, či už príjemné alebo nepríjemné. Paul Ekman a Wallace V. Friesen, identifikovali šesť základných emócií: hnev, znechutenie, strach, šťastie, smútok a prekvapenie.

Ťažko sa získavajú nahrávky, na ktorých by boli zachytené všetky emócie. Napríklad strach sa najviac prejavuje vtedy, keď ide o život. Bolo by neetické získavať takéto nahrávky v reálnom živote, preto sa hľadajú iné možnosti. Neetickosť sa dá obísť tým, že namiesto reálnych emočných prejavov sa použijú hrané nahrávky.

Dvojrozmerný model emočného priestoru

Delí sa na príjemné emócie (napr. veselý, spokojný, uvoľnený) a nepríjemné emócie (napr. smutný, nervózny, vyčerpaný).

Dvojrozmerný model emočného priestoru

Informácie obsiahnuté v reči a hlase

Z reči a hlasu môžeme rozoznať, popri „textovej“ informácii, identitu, pohlavie, vek, emócie, stres, typ osobnosti, fyzický a zdravotný stav alebo aj geografický pôvod hovoriaceho a mnohé ďalšie informácie. To všetko dokáže mnohokrát z hlasu správne odhadnúť aj automatický systém analýzy reči, za predpokladu, že ho to vedci a vývojári dobre „naučili“. 

Syntéza zvuku

Do nahratého zvuku sa dajú robiť zásahy, napr. zvýšiť tón. Môžeme obmedziť intonáciu, hĺbku… V 70. rokoch bol vytvorený robotický hlas syntetizérov. V 90. rokoch sa používali automatické syntetizátory hlasu. Napr. na doručovanie textu SMS na pevnú linku sa používala tzv. roboteta – syntetizátor so ženským hlasom.

Automatický Prepis Diktátu (APD)

Od roku 2012 sa používa systém automatického prepisu diktátu. Ide o softvér určený na automatický prepis diktovaného textu pre použitie v právnej a súdnej praxi (pre Ministerstvo spravodlivosti SR a Prokuratúru SR). Umožňuje diktovanie právnych textov (rozsudkov, zápisníc, rozhodnutí atď.) priamo do dokumentov v prostredí textového editora MS Word a prepis diktovaných textov zaznamenaných pomocou diktafónu. Diktovaný text je možné kedykoľvek dopĺňať a editovať pomocou klávesnice a tiež pomocou tzv. hlasových príkazov. Účelom systému APD je uľahčiť prácu s právnymi textami a prispieť k efektívnejšej a komfortnejšej práci s nimi.

Video titulkovanie (automatické titulkovanie televíznych správ)

Zatiaľ čo plne automatické spracovanie klasickým rozpoznávačom reči neprináša dostatočne kvalitné titulky, pri titulkovaní sa využíva aj diarizácia rečníkov;  špecializované akustické modely pre rôzne prostredia; jazykové modely pre rôzne témy (politické debaty, kultúra, športové noviny); technológie zarovnania textu s nahratou rečou. Výrazne sa znižuje množstvo ľudskej práce potrebné na vytváranie titulkov.

Ing. Milan Rusko, PhD., prednášal v Bratislavskej vedeckej cukrárni

S témou Ako ukradnúť hlas, ako odmerať emócie a iné tajomstvá ľudskej reči vystúpil Ing. Milan Rusko, PhD., v Bratislavskej vedeckej cukrárni dňa 16. októbra 2018 o 9.00 hod. v Centre vedecko-technických informácií SR v Bratislave, Lamačská cesta 8/A. Podujatie zorganizovalo Národné centrum pre popularizáciu vedy a techniky na Slovensku pri CVTI SR.

Ing. Milan Rusko, PhD. Ing. Milan Rusko, PhD., je od roku 1993 vedúcim Oddelenia analýzy a syntézy reči v Ústave informatiky Slovenskej akadémie vied v Bratislave. V súčasnosti vedie národný projekt Automatické hodnotenie akútneho stresu z reči a je spoluriešiteľom projektu Automatické titulkovanie audiovizuálneho obsahu pre osoby so sluchovým postihnutím. V predchádzajúcich rokoch svoju vedeckej činnosť zameriaval na projekty, ako napríklad Východoeurópske rečové databázy pre tvorbu hlasom ovládaných telefónnych aplikácií; Rečové technológie pre moderné telekomunikačné a informačné systémy a služby; Automatizované, hlasom ovládané telekomunikačné systémy a ich aplikácie či Globálny bezpečnostný manažment riadenia letovej prevádzky. Viedol viaceré úspešné aplikačné projekty, napríklad Syntéza reči pre telekomunikačných operátorov, Automatický prepis diktátu pre Ministerstvo spravodlivosti SR, hlasový vstup informačného systému Generálnej prokuratúry SR a ďalšie.

 

Spracovala a uverejnila: Marta Bartošovičová, NCP VaT pri CVTI SR

Foto: Ján Laštinec, NCP VaT pri CVTI SR

Obrázky: z prezentácie Ing. Milana Ruska, PhD.

 

CENTRUM VEDECKO-TECHNICKÝCH INFORMÁCIÍ SR Ministerstvo školstva, výskumu, vývoja a mládeže Slovenskej republiky