Xiaomi vyvinula AI model s 4,7 miliardami parametrů, kombinující vizuální vnímání, řeč a ovládání pro roboty.
Xiaomi vstupuje na trh robotiky
Čínský gigant mobilních zařízení a chytrého domu, známý jako Xiaomi, oznámil nový krok: vývoj vlastního modelu umělé inteligence pro roboty. Společnost představila Xiaomi‑Robotics‑0, systém s otevřeným zdrojovým kódem, který kombinuje vizuální rozpoznávání, porozumění jazyku a řízení akcí v reálném čase. Model má 4,7 miliardy parametrů a již nastavil několik rekordů jak ve simulacích, tak i v praxi.
Jak model funguje
Robot obvykle prochází cyklem „vnímaní → rozhodnutí → akce“. Xiaomi‑Robotics‑0 vyvažuje mezi širokým porozuměním situace a přesným řízením motoriky díky architektuře Mixture‑of‑Transformers (MoT).
1. Vizuálně-jazykový model (VLM) – „mozek“ systému.
* Trénován na interpretaci příkazů, i když jsou rozmazané („prosím, složte ručník“).
* Rozumí prostorovým vztahům na základě vysoce kvalitních obrázků.
* Úkoly: detekce objektů, odpovědi na vizuální otázky a logické uvažování.
2. Expert na akce (Action Expert) – generátor pohybů.
* Založen na difuzním transformátoru (DiT).
* Negeneruje jednu akci najednou; vytváří sekvenci akcí pomocí porovnání proudů, což zajišťuje plynulost a přesnost.
Výuka bez ztráty porozumění
Běžné VLM ztrácejí část svých schopností vnímání při tréninku na fyzických úkolech. Xiaomi tento problém vyřešila současným tréninkem modelu multimodálními daty (obrázky + text) a daty o akcích. Proces výuky se skládá z několika fází:
1. Návrh akcí – VLM předpovídá možné rozdělení akcí podle obrázků, synchronizuje vnitřní reprezentaci s reálnými operacemi.
2. Poté VLM „vypne“ a DiT prochází samostatným tréninkem generování přesných sekvencí ze šumu, opírá se o klíčové znaky, nikoli o jazykové tokeny.
Minimalizace zpoždění
Pro odstranění přestávek mezi předpověďmi modelu a reálnými pohyby robota byla použita asynchronní výstup: výpočty AI a akce robota jsou oddělené. To umožňuje robotům plynule se pohybovat i při nutnosti dalšího výpočtu.
* Clean Action Prefix – metoda vracení dříve předpovězené akce, zajišťující plynulost bez náhlých skoků.
* Maskování pozornosti se zaměřuje na aktuální vizuální řadu a ignoruje minulá stavy, což robota činí citlivějším na náhlé změny prostředí.
Výsledky
V simulovaných prostředích LIBERO, CALVIN a SimplerEnv Xiaomi‑Robotics‑0 překonal přibližně 30 konkurentů. Na reálném robotu se dvěma manipulátory model úspěšně vypořádal s náročnými úkoly: skládání ručníků, rozebírání stavebnice. Robot demonstroval stabilní koordinaci rukou a očí a stejně efektivně manipuluje objekty v různých scénářích.
Tímto Xiaomi nejenže rozšířil svůj portfoli produktů, ale položil i základ pro další výzkum v oblasti „fyzického inteligence“ robotů.
Komentáře (0)
Podělte se o svůj názor — prosím, buďte slušní a držte se tématu.
Přihlaste se pro komentování