Apple vyvíjí vlastní AI‑asistent pro iPhone, který dokáže spouštět aplikace místo uživatele
Apple vyvíjí kompaktní lokální AI agenta pro práci s uživatelskými rozhraními
Apple pracuje na novém algoritmu – Ferret‑UI Lite, který je schopen „rozumět“ rozhraním aplikací a interagovat s nimi jménem uživatele, přičemž vše probíhá přímo na zařízení. Model má 3 miliardy parametrů a v testech ukazuje výsledky srovnatelné nebo dokonce převyšující větší modely až 24krát větší.
Původ projektu
V prosinci 2023 tým devíti výzkumníků publikoval práci FERRET: Refer and Ground Anything Anywhere at Any Granularity. V ní byl představen multimodální jazykový model, který se učí na různých typech dat a umí spojovat textové popisy s konkrétními částmi obrázku.
Od té doby Apple rozšířil rodinu Ferret‑modelů:
| Model | Účel |
|---|---|
| Ferretv2 | Vylepšený základní model |
| Ferret‑UI | Specializovaný MLLM pro mobilní rozhraní |
| Ferret‑UI 2 | Podpora více platforem a vyššího rozlišení |
Ferret‑UI konkrétně řeší jeden z problémů současných multimodálních velkých jazykových modelů (MLLM): špatně rozpoznávají UI prvky. Model přidává „libovolné rozlišení“ nad Ferret, zvyšuje detailnost obrázků a využívá vylepšené vizuální rysy.
Nové úspěchy
Nedávno Apple představila dvě další verze:
1. Ferret‑UI Lite – lehký model s 3 miliardami parametrů, optimalizovaný pro lokální běh na mobilních zařízeních.
2. Ferret‑UI 2 – rozšířená verze podporující více platforem a vyšší rozlišení screenshotů.
Hlavní rozdíl Ferret‑UI Lite od velkých serverových modelů: zachovává konkurenceschopnost při výrazně nižších výpočetních požadavcích.
Proč je to důležité
Většina existujících GUI agentů je založena na obrovských základních modelech, protože jejich silné schopnosti uvažování a plánování umožňují dosahovat vynikajících výsledků při navigaci grafickými rozhraními. Tyto modely však jsou příliš těžké pro provádění přímo na zařízení.
Ferret‑UI Lite řeší tento úkol kombinací:
- Mnoho klíčových komponent a myšlenek z tréninku menších LLM;
- Reálných a syntetických dat z různých oblastí GUI;
- Technik dynamického ořezávání a optimalizace kvality segmentace rozhraní;
- Kontrolovaného jemného ladění a učení s posilováním.
Výsledkem je model, který je prakticky roven nebo dokonce převyšuje větší konkurenční GUI agenty v úlohách nízkoúrovňového spojování s UI prvky, porozumění tomu, co se na obrazovce děje, vícestupňovému plánování a sebepoznání.
Komentáře (0)
Podělte se o svůj názor — prosím, buďte slušní a držte se tématu.
Přihlaste se pro komentování