Google snížila spotřebu paměti AI modelů šestnásobně a zachovala přesnost díky algoritmu TurboQuant
Krátké shrnutí
Google Research představil nový způsob komprese KV‑cache velkých jazykových modelů – TurboQuant. Algoritmus snižuje rozlišení cache na 3 bity (4 bity, pokud přidáte korekci chyb), aniž by zhoršil přesnost odpovědí a bez dalšího tréninku. Na akcelerátorech Nvidia H100 TurboQuant zvýšil výkon výpočtu logitů pozornosti o 8 krát a snížil velikost KV‑cache šesti krát.
Co je KV‑cache a proč je důležitá
* KV‑cache uchovává klíče (K) a hodnoty (V), získané při výpočtu mechanismu pozornosti.
To umožňuje modelu neobnovovat je na každém kroku generování tokenů.
* Při zvětšování kontextového okna cache roste exponenciálně, což vede k vysokým nákladům na paměť.
* Tradiční metody kvantizace snižují velikost cache, ale vyžadují ukládání konstant kvantizace (slovníků), podobných ZIP/RAR.
Tyto slovníky vytvářejí značné režijní náklady.
Jak TurboQuant funguje
TurboQuant se skládá ze dvou fází a zcela eliminuje slovníky.
| Fáze | Co se dělá | Proč je to důležité |
|---|---|---|
| 1. PolarQuant | Převod vektorů z kartézských souřadnic na polární (poloměr + úhel). | Úhlové rozdělení jsou předvídatelná a koncentrovaná, takže není potřeba drahý krok normalizace každého bloku. Výsledkem je vysoce kvalitní komprese bez slovníků. |
| 2. 1‑bitová vrstva korekce chyb | Používá kvantovaný algoritmus Johnson–Lindenstrauss; zbytková chyba se redukuje na jeden bit. | Odstraní systematickou chybu v výpočtech pozornosti s minimálními dodatečnými náklady. |
Praktické výsledky
| Test | Algoritmy | Výsledky |
|------|-----------|---------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: minimálně 6× komprese KV‑cache; v úlohách hledání „hůlky v koši sena“ – bez ztráty přesnosti. V LongBench – stejně dobrý, někdy lepší než KIVI. |
| Vektorové vyhledávání (GloVe) | TurboQuant vs Product Quantization, RabbiQ | I bez tréninku TurboQuant překonal trénované konkurenty v kvalitě výsledků a spotřebě paměti. |
Závěry
* TurboQuant poskytuje silnou kompresi KV‑cache na 3–4 bity bez ztráty přesnosti a bez dalšího tréninku.
* Výkon na Nvidia H100 vzrostl o 8×, a velikost cache se snížila šesti krát.
* Algoritmus funguje jak pro velké jazykové modely, tak pro úlohy vektorového vyhledávání, aniž by vyžadoval jemné ladění.
Tím pádem je TurboQuant připraven k praktickému použití i při vysoké zátěži a otevírá nové možnosti pro efektivní práci s velkými modely.
Komentáře (0)
Podělte se o svůj názor — prosím, buďte slušní a držte se tématu.
Přihlaste se pro komentování