Apple vyvíjí vlastní AI‑asistent pro iPhone, který dokáže spouštět aplikace místo uživatele

Apple vyvíjí kompaktní lokální AI agenta pro práci s uživatelskými rozhraními

Apple pracuje na novém algoritmu – Ferret‑UI Lite, který je schopen „rozumět“ rozhraním aplikací a interagovat s nimi jménem uživatele, přičemž vše probíhá přímo na zařízení. Model má 3 miliardy parametrů a v testech ukazuje výsledky srovnatelné nebo dokonce převyšující větší modely až 24krát větší.

Původ projektu
V prosinci 2023 tým devíti výzkumníků publikoval práci FERRET: Refer and Ground Anything Anywhere at Any Granularity. V ní byl představen multimodální jazykový model, který se učí na různých typech dat a umí spojovat textové popisy s konkrétními částmi obrázku.

Od té doby Apple rozšířil rodinu Ferret‑modelů:

Model	Účel
Ferretv2	Vylepšený základní model
Ferret‑UI	Specializovaný MLLM pro mobilní rozhraní
Ferret‑UI 2	Podpora více platforem a vyššího rozlišení

Ferret‑UI konkrétně řeší jeden z problémů současných multimodálních velkých jazykových modelů (MLLM): špatně rozpoznávají UI prvky. Model přidává „libovolné rozlišení“ nad Ferret, zvyšuje detailnost obrázků a využívá vylepšené vizuální rysy.

Nové úspěchy
Nedávno Apple představila dvě další verze:

1. Ferret‑UI Lite – lehký model s 3 miliardami parametrů, optimalizovaný pro lokální běh na mobilních zařízeních.
2. Ferret‑UI 2 – rozšířená verze podporující více platforem a vyšší rozlišení screenshotů.

Hlavní rozdíl Ferret‑UI Lite od velkých serverových modelů: zachovává konkurenceschopnost při výrazně nižších výpočetních požadavcích.

Proč je to důležité
Většina existujících GUI agentů je založena na obrovských základních modelech, protože jejich silné schopnosti uvažování a plánování umožňují dosahovat vynikajících výsledků při navigaci grafickými rozhraními. Tyto modely však jsou příliš těžké pro provádění přímo na zařízení.

Ferret‑UI Lite řeší tento úkol kombinací:

- Mnoho klíčových komponent a myšlenek z tréninku menších LLM;
- Reálných a syntetických dat z různých oblastí GUI;
- Technik dynamického ořezávání a optimalizace kvality segmentace rozhraní;
- Kontrolovaného jemného ladění a učení s posilováním.

Výsledkem je model, který je prakticky roven nebo dokonce převyšuje větší konkurenční GUI agenty v úlohách nízkoúrovňového spojování s UI prvky, porozumění tomu, co se na obrazovce děje, vícestupňovému plánování a sebepoznání.

Apple vyvíjí vlastní AI‑asistent pro iPhone, který dokáže spouštět aplikace místo uživatele

Related news

Apple‑Car by mohl vypadat takto: Ferrari představuje interiér elektrického vozu Luce, navrženého Jonym Aivem

Prodeje Mortal Kombat 1 překročily 8 milionů kopií, ale rekord předchozí hry je zatím nedosažitelný

Tesla zahájila kampaň proti „podvodným“ metodám aktivace autopilota v regionech, kde je jeho používání zakázáno.

Za pět let se podle šéfa společnosti Dell poptávka po paměti zvýší více než 600krát díky růstu AI čipů.

Komentáře (0)

Přihlaste se pro komentování