Preskočiť na obsah Preskočiť na pätu (NCP VaT)
VEDA NA DOSAH – váš zdroj informácií o slovenskej vede

Zoznámte sa s VALL-E, umelou inteligenciou, ktorá vie za tri sekundy napodobniť váš hlas

VEDA NA DOSAH

Spoločnosť Microsoft natrénovala jazykový model až na 60-tisíc hodín anglických nahrávok.

Záznam zvuku. Zdroj: iStockphoto.com

Zdroj: iStockphoto.com

Poznáte fiktívneho robota z rozprávky WALL-E, ktorého meno inšpirovalo DALL-E – generátor obrázkov založený na umelej inteligencii? Teraz prichádza experimentálna technológia VALL-E, ktorej stačia tri sekundy zvukového záznamu na to, aby dokonale napodobnila váš hlas aj s jeho emocionálnym odtieňom.

VALL-E je iný a trénovanejší ako doterajšie modely

Jazykový model VALL-E, ktorý spoločnosť Microsoft predstavila minulý týždeň, je postavený na princípe špeciálneho neurálneho kodeku EnCodec od spoločnosti Meta. VALL-E však funguje inak ako bežné nástroje, ktoré prevádzajú text na reč. Tie pracujú v súčasnosti tak, že manipulujú zvukovú krivku (tvar zvukovej vlny). VALL-E na rozdiel od nich dokáže vytvárať skutočný zvukový kód.

Predstavte si, že poviete do mikrofónu jednu krátku vetu, ktorá bude stačiť na to, aby sa hlasový generátor naučil hovoriť vaším hlasom. VALL-E si najskôr vypočuje krátku, aspoň tri sekundy trvajúcu nahrávku (vzorku hlasu), potom analyzuje spôsob, ako znie, a rozdelí ju na takzvané akustické prvky, s ktorými potom ďalej pracuje.

Vedci natrénovali VALL-E na 60-tisíc hodín anglických nahrávok, čo je stokrát viac ako v existujúcich systémoch.

Ukážky si môžete vypočuť na vlastné uši na stránke https://valle-demo.github.io/.

Potenciálne využitie aj zneužitie

Tvorcovia stroja VALL-E tvrdia, že umelá inteligencia by sa dala použiť vo vysokokvalitných aplikáciách prevodu textu na reč, pri úprave nahrávky a vytváraní zvukového obsahu. Predstavte si napríklad to, že by váš obľúbený herec chcel nahrať text novej audioknihy, no vôbec by nemusel vyjsť z domu, aby sa postavil do štúdia. Jednoducho by na tento účel poskytol licenciu na svoj hlas a o zvyšok by sa postaral automat.

Praktické využitie by jazykový model našiel aj pri dodatočnej zvukovej úprave v médiách, keď by strihači zvuku vedeli opraviť nechcený obsah alebo brbty moderátorov. V zásade sa nečudujme, ak sa vo veľmi blízkej budúcnosti obrátime na umelú inteligenciu s potrebou písania, rozprávania a šoférovania.

Chatbot. Zdroj: iStockphoto.com

Zdroj: iStockphoto.com

Na druhej strane táto technológia vzbudzuje oprávnené obavy, že by sa mohla dať zneužiť. Model vie napodobniť hlas osoby a povedať slová, ktoré z jej úst nikdy nevyšli. Vedci dokonca tvrdia, že VALL-E dokáže zachovať emócie rečníka aj akustického prostredia. „Experimenty sme robili za predpokladu, že používateľ modelu je aj cieľovým rečníkom,“ potvrdili vývojári. To však nemusí byť vždy pravda, a tým otvára dvere šíreniu hoaxov a falošných správ.

Našťastie spoločnosť zatiaľ neposkytla technológiu verejnosti, aby sa s ňou mohla zahrávať. Výskumníci dodali, že zvažujú vytvoriť model, ktorý dokáže zistiť, či je zvukový klip skutočný, alebo je to len výplod VALL-E.

Zdroj: Soyacincau, Živě, siliconrepublic

(JM)

CENTRUM VEDECKO-TECHNICKÝCH INFORMÁCIÍ SR Ministerstvo školstva, výskumu, vývoja a mládeže Slovenskej republiky