Apple zveřejnil technický report, ve kterém popisuje, jak vznikla jeho nová generace jazykových modelů. Dokument přibližuje architekturu, trénovací data i optimalizace, které stojí za systémem Apple Intelligence.
Lokální model, který běží přímo v iPhonu nebo iPadu, má asi 3 miliardy parametrů. Apple ho rozdělil do dvou bloků. První obsahuje 62,5 % vrstev, druhý zbytek, ale bez některých projekcí, díky čemuž se snížila spotřeba paměti o 37,5 %. Stejné úspory firma dosáhla i při výpočtu prvního tokenu, tedy základní jazykové jednotky.
Cloudový model s vlastním systémem expertů
Apple vyvinul i cloudovou architekturu šitou na míru platformě Private Cloud Compute. Jmenuje se Parallel-Track Mixture-of-Experts (PT-MoE) a funguje tak, že se aktivují jen části modelu podle typu dotazu. Pokud se ptáte na vaření, aktivují se jen „odborníci“ na recepty, ostatní zůstanou vypnutí.
Každá z těchto větví používá vlastní odborné vrstvy a zpracovává tokeny paralelně, což snižuje prodlevy. Jednotlivé větve se synchronizují jen v přesně daných momentech. Tím se model zrychluje bez ztráty kvality.
Lepší podpora jiných jazyků
Apple výrazně navýšil množství vícejazyčných dat, která použil pro trénink. Původně tvořila jen 8 %, teď jde o 30 %. Rozšířil také tokenizér – model teď pracuje se 150 tisíci tokeny místo původních 100 tisíc.
Výsledkem je podle Applu vyšší přesnost a přirozenost odpovědí mimo angličtinu. Hodnocení probíhalo na zadáních od rodilých mluvčích a bralo v úvahu i přirozenost tónu. Největší pokroky zaznamenal Apple u jazykových nástrojů, jako jsou funkce pro přepis a návrhy textu.
Odkud se brala trénovací data
Hlavním zdrojem byla veřejně dostupná data z webu, která sbíral Applebot. Robot respektuje nastavení webů, takže pokud stránka zakáže stahování, Apple ji neprochází. Kromě toho firma využila i licencovaný obsah od vydavatelů a syntetická data vytvořená menšími modely, hlavně pro úkoly typu „napiš odpověď“ nebo pro trénink v matematice a kódu.
Pro vizuální porozumění Apple nasbíral přes 10 miliard dvojic obrázek–popisek, včetně snímků obrazovek nebo ručně psaných poznámek. Část popisků vygenerovaly vlastní modely. Mluví se také o možném zapojení obsahu od Shutterstocku.
Apple se tak snaží dohnat konkurenci s důrazem na soukromí, lokální běh modelů a vysoký standard výstupu. Nový report poodhaluje, že firma v zákulisí nezahálí, jen postupuje vlastním tempem.