Zvukový kodek společnosti Meta slibuje desetinásobnou kompresi oproti MP3 pomocí AI

Minulý týden oznámila společnost Meta novou metodu komprese zvuku poháněnou umělou inteligencí nazvanou „EnCodec“. Ta podle firmy dokáže komprimovat zvuk na desetkrát menší velikost než formát MP3 bez ztráty kvality. Informoval o tom server Ars Technica a TechSpot.

Díky své vysoké efektivitě a integrované podpoře mnoha programů se stal kodek MP3 v devadesátých letech a později de facto standardem pro sdílení zvukových souborů na internetu. Nyní se chce nový algoritmus pro kompresi od společnosti Meta zapsat do historie tím, že nabídne ještě extrémnější zvýšení účinnosti a úsporu šířky pásma.

Meta recently announced an AI-powered audio compression method called „EnCodec“ that can reportedly compress audio 10 times smaller than the MP3 format at 64kbps with no loss in quality.https://t.co/FqItRHDuIn
— Ars Technica (@arstechnica) November 2, 2022

Jak uvádí server TechSpot, společnost Meta tuto technologii představila v článku s názvem „High Fidelity Neural Audio Compression“. Jeho autoři jsou výzkumní pracovníci společnosti Meta AI Alexandre Défossez, Jade Copet, Gabriel Synnaeve a Yossi Adi. Společnost Meta tento výzkum shrnula také na svém blogu.

Možné použití v metaverse

Výzkumníci společnosti Meta koncipovali Encodec jako potenciální řešení pro podporu „současných a budoucích“ zážitků v metaverse. Nová technologie je neuronová síť vycvičená tak, aby podle společnosti „posunula hranice možností“ v oblasti komprese zvuku pro online aplikace.

Umělá inteligence je vycvičená tak, aby po kompresi dosáhla konkrétní cílové velikosti. Encodec dokáže datový tok MP3 o kapacitě 64 Kb/s stlačit na 6 Kb/s, což znamená, že k zachování stejné kvality jako u originálu potřebuje pouze 6 144 bajtů.

Nový kodek dokáže údajně komprimovat na 10x menší soubor než MP3. Foto: Meta

Jak uvádí server Ars Technica, Meta popisuje svou novou metodu komprese jako třídílný systém. Nejprve kodér transformuje nekomprimovaná data do reprezentace „latentního prostoru“ s nižší snímkovou frekvencí. „Kvantizer“ pak tuto reprezentaci zkomprimuje na cílovou velikost, přičemž zachovává nejdůležitější informace, které budou později použity k obnově původního signálu. Nakonec dekodér změní v reálném čase komprimovaná data zpět na zvuk pomocí neuronové sítě a jednoho jádra procesoru.

Stojí za zmínku, že použití neuronové sítě pro kompresi a dekompresi zvuku není zdaleka nové. Výzkumníci společnosti Meta ale tvrdí, že jsou první skupinou, která tuto technologii použila pro stereofonní zvuk s frekvencí 48 kHz, která je typická pro hudební soubory distribuované na internetu.

Schéma znázorňující fungování komprese EnCodec. Foto: Meta

Co se týče použití, společnost Meta tvrdí, že její nový zvukový kodek by mohl podpořit „rychlejší a kvalitnější hovory“ ve špatných síťových podmínkách.

Rychlý přehled

Zprávy

Ukrajina

Domácí

Ekonomika

Rychlý přehled

Zprávy

Ukrajina

Domácí

Ekonomika

Zvukový kodek společnosti Meta slibuje desetinásobnou kompresi oproti MP3 pomocí AI

Možné použití v metaverse

Doporučujeme

O nás

Polulární články

Nejnovější články

Provozovatel webu

Napište nám