Google snížila spotřebu paměti AI modelů šestnásobně a zachovala přesnost díky algoritmu TurboQuant

Google snížila spotřebu paměti AI modelů šestnásobně a zachovala přesnost díky algoritmu TurboQuant

9 hardware

Krátké shrnutí

Google Research představil nový způsob komprese KV‑cache velkých jazykových modelů – TurboQuant. Algoritmus snižuje rozlišení cache na 3 bity (4 bity, pokud přidáte korekci chyb), aniž by zhoršil přesnost odpovědí a bez dalšího tréninku. Na akcelerátorech Nvidia H100 TurboQuant zvýšil výkon výpočtu logitů pozornosti o 8 krát a snížil velikost KV‑cache šesti krát.

Co je KV‑cache a proč je důležitá
* KV‑cache uchovává klíče (K) a hodnoty (V), získané při výpočtu mechanismu pozornosti.
To umožňuje modelu neobnovovat je na každém kroku generování tokenů.
* Při zvětšování kontextového okna cache roste exponenciálně, což vede k vysokým nákladům na paměť.
* Tradiční metody kvantizace snižují velikost cache, ale vyžadují ukládání konstant kvantizace (slovníků), podobných ZIP/RAR.
Tyto slovníky vytvářejí značné režijní náklady.

Jak TurboQuant funguje
TurboQuant se skládá ze dvou fází a zcela eliminuje slovníky.

FázeCo se děláProč je to důležité
1. PolarQuantPřevod vektorů z kartézských souřadnic na polární (poloměr + úhel).Úhlové rozdělení jsou předvídatelná a koncentrovaná, takže není potřeba drahý krok normalizace každého bloku. Výsledkem je vysoce kvalitní komprese bez slovníků.
2. 1‑bitová vrstva korekce chybPoužívá kvantovaný algoritmus Johnson–Lindenstrauss; zbytková chyba se redukuje na jeden bit.Odstraní systematickou chybu v výpočtech pozornosti s minimálními dodatečnými náklady.

Praktické výsledky
| Test | Algoritmy | Výsledky |
|------|-----------|---------|
| LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: minimálně 6× komprese KV‑cache; v úlohách hledání „hůlky v koši sena“ – bez ztráty přesnosti. V LongBench – stejně dobrý, někdy lepší než KIVI. |
| Vektorové vyhledávání (GloVe) | TurboQuant vs Product Quantization, RabbiQ | I bez tréninku TurboQuant překonal trénované konkurenty v kvalitě výsledků a spotřebě paměti. |

Závěry
* TurboQuant poskytuje silnou kompresi KV‑cache na 3–4 bity bez ztráty přesnosti a bez dalšího tréninku.
* Výkon na Nvidia H100 vzrostl o 8×, a velikost cache se snížila šesti krát.
* Algoritmus funguje jak pro velké jazykové modely, tak pro úlohy vektorového vyhledávání, aniž by vyžadoval jemné ladění.

Tím pádem je TurboQuant připraven k praktickému použití i při vysoké zátěži a otevírá nové možnosti pro efektivní práci s velkými modely.

Komentáře (0)

Podělte se o svůj názor — prosím, buďte slušní a držte se tématu.

Zatím žádné komentáře. Zanechte komentář a podělte se o svůj názor!

Chcete-li zanechat komentář, přihlaste se.

Přihlaste se pro komentování