Apple vyvíjí vlastní AI‑asistent pro iPhone, který dokáže spouštět aplikace místo uživatele

Apple vyvíjí vlastní AI‑asistent pro iPhone, který dokáže spouštět aplikace místo uživatele

9 hardware

Apple vyvíjí kompaktní lokální AI agenta pro práci s uživatelskými rozhraními

Apple pracuje na novém algoritmu – Ferret‑UI Lite, který je schopen „rozumět“ rozhraním aplikací a interagovat s nimi jménem uživatele, přičemž vše probíhá přímo na zařízení. Model má 3 miliardy parametrů a v testech ukazuje výsledky srovnatelné nebo dokonce převyšující větší modely až 24krát větší.

Původ projektu
V prosinci 2023 tým devíti výzkumníků publikoval práci FERRET: Refer and Ground Anything Anywhere at Any Granularity. V ní byl představen multimodální jazykový model, který se učí na různých typech dat a umí spojovat textové popisy s konkrétními částmi obrázku.

Od té doby Apple rozšířil rodinu Ferret‑modelů:

ModelÚčel
Ferretv2Vylepšený základní model
Ferret‑UISpecializovaný MLLM pro mobilní rozhraní
Ferret‑UI 2Podpora více platforem a vyššího rozlišení

Ferret‑UI konkrétně řeší jeden z problémů současných multimodálních velkých jazykových modelů (MLLM): špatně rozpoznávají UI prvky. Model přidává „libovolné rozlišení“ nad Ferret, zvyšuje detailnost obrázků a využívá vylepšené vizuální rysy.

Nové úspěchy
Nedávno Apple představila dvě další verze:

1. Ferret‑UI Lite – lehký model s 3 miliardami parametrů, optimalizovaný pro lokální běh na mobilních zařízeních.
2. Ferret‑UI 2 – rozšířená verze podporující více platforem a vyšší rozlišení screenshotů.

Hlavní rozdíl Ferret‑UI Lite od velkých serverových modelů: zachovává konkurenceschopnost při výrazně nižších výpočetních požadavcích.

Proč je to důležité
Většina existujících GUI agentů je založena na obrovských základních modelech, protože jejich silné schopnosti uvažování a plánování umožňují dosahovat vynikajících výsledků při navigaci grafickými rozhraními. Tyto modely však jsou příliš těžké pro provádění přímo na zařízení.

Ferret‑UI Lite řeší tento úkol kombinací:

- Mnoho klíčových komponent a myšlenek z tréninku menších LLM;
- Reálných a syntetických dat z různých oblastí GUI;
- Technik dynamického ořezávání a optimalizace kvality segmentace rozhraní;
- Kontrolovaného jemného ladění a učení s posilováním.

Výsledkem je model, který je prakticky roven nebo dokonce převyšuje větší konkurenční GUI agenty v úlohách nízkoúrovňového spojování s UI prvky, porozumění tomu, co se na obrazovce děje, vícestupňovému plánování a sebepoznání.

Komentáře (0)

Podělte se o svůj názor — prosím, buďte slušní a držte se tématu.

Zatím žádné komentáře. Zanechte komentář a podělte se o svůj názor!

Chcete-li zanechat komentář, přihlaste se.

Přihlaste se pro komentování