Reklama
4.6 C
Czech
Úterý 10. března 2026
ITBoxUmělá inteligence VALL-E od Microsoftu dokáže napodobit jakýkoliv hlas

Umělá inteligence VALL-E od Microsoftu dokáže napodobit jakýkoliv hlas

Microsoft oznámil nový model umělé inteligence pro převod textu na řeč. Model nazvaný VALL-E dokáže věrohodně napodobit hlas člověka z třísekundového zvukového vzorku. Informoval o tom server Engadget a Ars Technica.

Společnost předpokládá, že VALL-E by mohl být použit pro vysoce kvalitní aplikace pro převod textu na řeč. Dalším možným využití je editace řeči, kde by se nahraný zvuk upravil tak, aby originální osoba řekla něco, co původně neřekla. Stejně jako deepfakes s sebou ale nese VALL-E riziko zneužití.

Vědci trénovali VALL-E na 60 000 hodinách anglické řeči od více než 7 000 mluvčích ze zvukové knihovny LibriLight společnosti Meta. Hlas, který se pokouší napodobit, musí být blízký hlasu v tréninkových datech. Pokud tomu tak je, použije tréninková data k odvození toho, jak by cílový mluvčí zněl, kdyby četl požadovaný textový vstup.

Společnost Microsoft poskytuje na GitHub stránce desítky zvukových ukázek modelu umělé inteligence v akci. Mezi ukázkami jsou pole „Speaker Prompt“, což je třívteřinový zvuk poskytnutý modelu VALL-E, který musí napodobit. „Ground Truth“ je již existující nahrávka téhož mluvčího, který říká určitou frázi pro účely srovnání. „Baseline“ je příklad výstupu poskytovaného běžnou metodou syntézy textu na řeč a ukázka „VALL-E“ je výstup z modelu VALL-E.

Výsledky jsou různé, některé nahrávky znějí strojově, jiné překvapivě realisticky. Ty, které dopadly dobře, většinou dokáží zachovat emocionální tón původních vzorků. Výstupu z modelu zachovávají akustické prostředí. Pokud řečník tedy nahrál svůj hlas v sále s ozvěnou, zní i výstup VALL-E, jako by pocházel ze stejného místa.

Pro zlepšení modelu plánuje společnost Microsoft rozšířit svá tréninková data, aby „zlepšila výkonnost modelu z hlediska prozódie, stylu mluvení a podobnosti mluvčího“. Zkoumá také způsoby, jak omezit nejasná nebo vynechaná slova.

Zdrojový kód nebude veřejný

I když to tak často u projektů s umělou inteligencí nebývá, společnost Microsoft se rozhodla nezpřístupnit kód jako open source, pravděpodobně kvůli rizikům spojeným s možným využitím k podvodům. Výzkumníci si zřejmě uvědomují potenciální sociální škody, které by tato technologie mohla přinést.

„Vzhledem k tomu, že VALL-E může syntetizovat řeč, která zachovává identitu mluvčího, může to s sebou nést potenciální rizika při zneužití modelu, jako je podvržení identifikace hlasu nebo vydávání se za někoho jiného,“ napsala společnost.

Pro zmírnění rizik je také podle společnosti možné vytvořit detekční model, který rozliší, zda byl zvukový klip syntetizován pomocí VALL-E.

Reklama

Doporučujeme

Íránská televize označila nového vůdce Modžtabu Chameneího za zraněného ve válce

Moderátoři íránské státní televize při nedělním oznámení jména nového nejvyššího duchovního Modžtaby Chameneího uvedli, že byl zraněn v "ramadánové válce", což je označení, které íránská média používají pro současný konflikt s USA a Izraelem. Analytik ale později v živém vysílání naznačil, že nyní 56letý Chameneí mohl být zraněn v irácko-íránské válce v 80. letech. Jak byl nový vůdce zraněn, tak z vysílání íránské televize není jasné, napsala agentura AP.

KOMENTÁŘ: Trump zlehčuje ropný šok. Uklidní svět uvolnění komoditních rezerv?

Pokračující válka na Blízkém východě vyhnala ceny ropy v jednu chvíli až na cenu 116 dolarů za barel. Napětí na trhu má ulevit plán států skupiny G7 na uvolnění ropných rezerv. O jaké množství černého zlata jde? A jak situaci komentuje prezident Donald Trump?

Výbuch v Lutychu poškodil synagogu. Antisemitský útok, míní belgická vláda

Belgické úřady vyšetřují pondělní výbuch před synagogou v Lutychu na východě země. Exploze poškodila budovu i okolní objekty, incident se obešel bez zranění. Podle představitelů státu šlo o cílený antisemitský čin.

Šéf rakouské veřejnoprávní ORF odstoupil z funkce kvůli obvinění z obtěžování

Šéf veřejnoprávní rakouské rozhlasové a televizní stanice ORF Roland Weissmann dnes z funkce s okamžitou platností odstoupil. Informovala o tom agentura APA s odvoláním na vedení rady této stanice. Weissmanna jedna ze zaměstnankyň obvinila ze sexuálního obtěžování, ten to ale popírá. Jeho právní zástupce oznámil právní kroky.

Trump naznačil, že o konci války s Íránem rozhodnou Spojené státy

Americký prezident Donald Trump v telefonickém rozhovoru s izraelským serverem The Times of Israel (ToI) naznačil, že o konci bojů s Íránem rozhodnou Spojené státy. Zároveň si šéf Bílého domu nemyslí, že bude nutné, aby Izrael ve válce pokračoval bez účasti USA.

Zemřel Joe McDonald, hlas Woodstocku a protiválečné generace

Hudební svět přišel o jednu z výrazných osobností americké kontrakultury 60. let. Joe McDonald se proslavil jako autor protiválečné hymny, která se stala symbolem protestů proti válce ve Vietnamu. Jeho jméno ale zůstává spojené i s legendárním festivalem Woodstock a celou generací, která tehdy hledala vlastní hlas.

Hlavní nádraží ve skotském Glasgow je uzavřeno kvůli požáru

Hlavní nádraží ve skotském Glasgow, které patří k největším v Británii, je uzavřeno na dobu neurčitou kvůli rozsáhlému požáru v jeho blízkém okolí. Uvedl to dnes ráno web BBC News. Budova, kde vypukl požár, se částečně zřítila. Není zcela jasné, jaké škody oheň způsobil v nádražní budově a na infrastruktuře. Nejsou informace o zraněných či mrtvých.

Írán má nového duchovního vůdce. Trumpovi se to líbit nebude

Modžtaba Chameneí, druhorozený syn zabitého ajatolláha Alího Chameneího, byl íránským Shromážděním znalců vybrán za nového duchovního vůdce islámské republiky. Hovoří se o muži držícím se v ústraní, který však získával moc „v zákulisí“ íránské politiky.

Čínské ceny rostly nejrychleji za víc než tři roky

Čínské spotřebitelské ceny v únoru zrychlily růst na 1,3 procenta meziročně a dostaly se nejvýš od ledna 2023. Pomohly jim oslavy lunárního nového roku, dražší ropa i silnější poptávka po elektronice spojené s umělou inteligencí. Zároveň se mírně zmírnil i tlak na průmyslovou deflaci, která čínskou ekonomiku svírá už déle než tři roky.

Poprvé od ruské invaze. Ceny ropy překonaly 100 dolarů za barel

Ceny ropy v neděli pokračovaly v rekordním růstu kvůli více než týden trvající izraelsko-americké válce proti Íránu. Poprvé od útoku Ruska na Ukrajinu v roce 2022 překročily hranici sta dolarů za barel. Pokud boje neskončí v průběhu března, uvidíme rekordní zdražování této komodity, varují analytici.

Rostlinná mléka mají menší ekologickou stopu než kravské

Stále více lidí sahá po rostlinných náhradách mléka. Důvody jsou různé. Někdo řeší klima, jiný zdraví nebo chuť. Nabídka je dnes široká. Na trhu najdeme sójové, ovesné, mandlové, rýžové i kokosové nápoje. Otázka ale zůstává stejná. Jsou opravdu šetrnější k planetě než klasické kravské mléko?

Americký úder na loď v Pacifiku zabil šest lidí

Americká armáda v neděli zaútočila na loď ve východní části Tichého oceánu a zabila šest lidí. Šlo o další zásah v kampani namířené proti plavidlům, která Washington spojuje s pašováním drog po moři. Počet obětí těchto útoků tím vzrostl na více než 150.

Quentin Tarantino připravuje svou první divadelní hru

Quentin Tarantino se pouští do nového projektu, který tentokrát nebude patřit filmovému plátnu. Slavný režisér připravuje vlastní divadelní hru, jež má podle dostupných informací čerpat z tradice britské komedie. Pokud vše půjde podle plánu, jeho první divadelní počin by mohl zamířit na londýnské jeviště.
Reklama
Reklama
Reklama
Reklama