Minulý týden oznámila společnost Meta novou metodu komprese zvuku poháněnou umělou inteligencí nazvanou „EnCodec“. Ta podle firmy dokáže komprimovat zvuk na desetkrát menší velikost než formát MP3 bez ztráty kvality. Informoval o tom server Ars Technica a TechSpot.
Díky své vysoké efektivitě a integrované podpoře mnoha programů se stal kodek MP3 v devadesátých letech a později de facto standardem pro sdílení zvukových souborů na internetu. Nyní se chce nový algoritmus pro kompresi od společnosti Meta zapsat do historie tím, že nabídne ještě extrémnější zvýšení účinnosti a úsporu šířky pásma.
Meta recently announced an AI-powered audio compression method called „EnCodec“ that can reportedly compress audio 10 times smaller than the MP3 format at 64kbps with no loss in quality.https://t.co/FqItRHDuIn
— Ars Technica (@arstechnica) November 2, 2022
Jak uvádí server TechSpot, společnost Meta tuto technologii představila v článku s názvem „High Fidelity Neural Audio Compression“. Jeho autoři jsou výzkumní pracovníci společnosti Meta AI Alexandre Défossez, Jade Copet, Gabriel Synnaeve a Yossi Adi. Společnost Meta tento výzkum shrnula také na svém blogu.
Možné použití v metaverse
Výzkumníci společnosti Meta koncipovali Encodec jako potenciální řešení pro podporu „současných a budoucích“ zážitků v metaverse. Nová technologie je neuronová síť vycvičená tak, aby podle společnosti „posunula hranice možností“ v oblasti komprese zvuku pro online aplikace.
Umělá inteligence je vycvičená tak, aby po kompresi dosáhla konkrétní cílové velikosti. Encodec dokáže datový tok MP3 o kapacitě 64 Kb/s stlačit na 6 Kb/s, což znamená, že k zachování stejné kvality jako u originálu potřebuje pouze 6 144 bajtů.

Jak uvádí server Ars Technica, Meta popisuje svou novou metodu komprese jako třídílný systém. Nejprve kodér transformuje nekomprimovaná data do reprezentace „latentního prostoru“ s nižší snímkovou frekvencí. „Kvantizer“ pak tuto reprezentaci zkomprimuje na cílovou velikost, přičemž zachovává nejdůležitější informace, které budou později použity k obnově původního signálu. Nakonec dekodér změní v reálném čase komprimovaná data zpět na zvuk pomocí neuronové sítě a jednoho jádra procesoru.
Stojí za zmínku, že použití neuronové sítě pro kompresi a dekompresi zvuku není zdaleka nové. Výzkumníci společnosti Meta ale tvrdí, že jsou první skupinou, která tuto technologii použila pro stereofonní zvuk s frekvencí 48 kHz, která je typická pro hudební soubory distribuované na internetu.

Co se týče použití, společnost Meta tvrdí, že její nový zvukový kodek by mohl podpořit „rychlejší a kvalitnější hovory“ ve špatných síťových podmínkách.