Google snížila spotřebu paměti AI modelů šestnásobně a zachovala přesnost díky algoritmu TurboQuant

Krátké shrnutí

Google Research představil nový způsob komprese KV‑cache velkých jazykových modelů – TurboQuant. Algoritmus snižuje rozlišení cache na 3 bity (4 bity, pokud přidáte korekci chyb), aniž by zhoršil přesnost odpovědí a bez dalšího tréninku. Na akcelerátorech Nvidia H100 TurboQuant zvýšil výkon výpočtu logitů pozornosti o 8 krát a snížil velikost KV‑cache šesti krát.

Co je KV‑cache a proč je důležitá
* KV‑cache uchovává klíče (K) a hodnoty (V), získané při výpočtu mechanismu pozornosti.
To umožňuje modelu neobnovovat je na každém kroku generování tokenů.
* Při zvětšování kontextového okna cache roste exponenciálně, což vede k vysokým nákladům na paměť.
* Tradiční metody kvantizace snižují velikost cache, ale vyžadují ukládání konstant kvantizace (slovníků), podobných ZIP/RAR.
Tyto slovníky vytvářejí značné režijní náklady.

Jak TurboQuant funguje
TurboQuant se skládá ze dvou fází a zcela eliminuje slovníky.

Fáze	Co se dělá	Proč je to důležité
1. PolarQuant	Převod vektorů z kartézských souřadnic na polární (poloměr + úhel).	Úhlové rozdělení jsou předvídatelná a koncentrovaná, takže není potřeba drahý krok normalizace každého bloku. Výsledkem je vysoce kvalitní komprese bez slovníků.
2. 1‑bitová vrstva korekce chyb	Používá kvantovaný algoritmus Johnson–Lindenstrauss; zbytková chyba se redukuje na jeden bit.	Odstraní systematickou chybu v výpočtech pozornosti s minimálními dodatečnými náklady.

Praktické výsledky
| Test | Algoritmy | Výsledky |
|------|-----------|---------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: minimálně 6× komprese KV‑cache; v úlohách hledání „hůlky v koši sena“ – bez ztráty přesnosti. V LongBench – stejně dobrý, někdy lepší než KIVI. |
| Vektorové vyhledávání (GloVe) | TurboQuant vs Product Quantization, RabbiQ | I bez tréninku TurboQuant překonal trénované konkurenty v kvalitě výsledků a spotřebě paměti. |

Závěry
* TurboQuant poskytuje silnou kompresi KV‑cache na 3–4 bity bez ztráty přesnosti a bez dalšího tréninku.
* Výkon na Nvidia H100 vzrostl o 8×, a velikost cache se snížila šesti krát.
* Algoritmus funguje jak pro velké jazykové modely, tak pro úlohy vektorového vyhledávání, aniž by vyžadoval jemné ladění.

Tím pádem je TurboQuant připraven k praktickému použití i při vysoké zátěži a otevírá nové možnosti pro efektivní práci s velkými modely.

Google snížila spotřebu paměti AI modelů šestnásobně a zachovala přesnost díky algoritmu TurboQuant

Related news

Apple‑Car by mohl vypadat takto: Ferrari představuje interiér elektrického vozu Luce, navrženého Jonym Aivem

Prodeje Mortal Kombat 1 překročily 8 milionů kopií, ale rekord předchozí hry je zatím nedosažitelný

Tesla zahájila kampaň proti „podvodným“ metodám aktivace autopilota v regionech, kde je jeho používání zakázáno.

Za pět let se podle šéfa společnosti Dell poptávka po paměti zvýší více než 600krát díky růstu AI čipů.

Komentáře (0)

Přihlaste se pro komentování