Xiaomi vyvinula AI model s 4,7 miliardami parametrů, kombinující vizuální vnímání, řeč a ovládání pro roboty.

Xiaomi vstupuje na trh robotiky

Čínský gigant mobilních zařízení a chytrého domu, známý jako Xiaomi, oznámil nový krok: vývoj vlastního modelu umělé inteligence pro roboty. Společnost představila Xiaomi‑Robotics‑0, systém s otevřeným zdrojovým kódem, který kombinuje vizuální rozpoznávání, porozumění jazyku a řízení akcí v reálném čase. Model má 4,7 miliardy parametrů a již nastavil několik rekordů jak ve simulacích, tak i v praxi.

Jak model funguje
Robot obvykle prochází cyklem „vnímaní → rozhodnutí → akce“. Xiaomi‑Robotics‑0 vyvažuje mezi širokým porozuměním situace a přesným řízením motoriky díky architektuře Mixture‑of‑Transformers (MoT).

1. Vizuálně-jazykový model (VLM) – „mozek“ systému.
* Trénován na interpretaci příkazů, i když jsou rozmazané („prosím, složte ručník“).
* Rozumí prostorovým vztahům na základě vysoce kvalitních obrázků.
* Úkoly: detekce objektů, odpovědi na vizuální otázky a logické uvažování.

2. Expert na akce (Action Expert) – generátor pohybů.
* Založen na difuzním transformátoru (DiT).
* Negeneruje jednu akci najednou; vytváří sekvenci akcí pomocí porovnání proudů, což zajišťuje plynulost a přesnost.

Výuka bez ztráty porozumění
Běžné VLM ztrácejí část svých schopností vnímání při tréninku na fyzických úkolech. Xiaomi tento problém vyřešila současným tréninkem modelu multimodálními daty (obrázky + text) a daty o akcích. Proces výuky se skládá z několika fází:

1. Návrh akcí – VLM předpovídá možné rozdělení akcí podle obrázků, synchronizuje vnitřní reprezentaci s reálnými operacemi.
2. Poté VLM „vypne“ a DiT prochází samostatným tréninkem generování přesných sekvencí ze šumu, opírá se o klíčové znaky, nikoli o jazykové tokeny.

Minimalizace zpoždění
Pro odstranění přestávek mezi předpověďmi modelu a reálnými pohyby robota byla použita asynchronní výstup: výpočty AI a akce robota jsou oddělené. To umožňuje robotům plynule se pohybovat i při nutnosti dalšího výpočtu.

* Clean Action Prefix – metoda vracení dříve předpovězené akce, zajišťující plynulost bez náhlých skoků.
* Maskování pozornosti se zaměřuje na aktuální vizuální řadu a ignoruje minulá stavy, což robota činí citlivějším na náhlé změny prostředí.

Výsledky
V simulovaných prostředích LIBERO, CALVIN a SimplerEnv Xiaomi‑Robotics‑0 překonal přibližně 30 konkurentů. Na reálném robotu se dvěma manipulátory model úspěšně vypořádal s náročnými úkoly: skládání ručníků, rozebírání stavebnice. Robot demonstroval stabilní koordinaci rukou a očí a stejně efektivně manipuluje objekty v různých scénářích.

Tímto Xiaomi nejenže rozšířil svůj portfoli produktů, ale položil i základ pro další výzkum v oblasti „fyzického inteligence“ robotů.

Xiaomi vyvinula AI model s 4,7 miliardami parametrů, kombinující vizuální vnímání, řeč a ovládání pro roboty.

Related news

Apple‑Car by mohl vypadat takto: Ferrari představuje interiér elektrického vozu Luce, navrženého Jonym Aivem

Prodeje Mortal Kombat 1 překročily 8 milionů kopií, ale rekord předchozí hry je zatím nedosažitelný

Tesla zahájila kampaň proti „podvodným“ metodám aktivace autopilota v regionech, kde je jeho používání zakázáno.

Za pět let se podle šéfa společnosti Dell poptávka po paměti zvýší více než 600krát díky růstu AI čipů.

Komentáře (0)

Přihlaste se pro komentování