Apple vycvičila kompaktní modely AI lépe popisovat obrázky než jejich větší konkurenti

Apple vycvičila kompaktní modely AI lépe popisovat obrázky než jejich větší konkurenti

20 software

Apple představuje novou technologii „RubiCap“ pro popis obrázků

Vědci společnosti Apple vytvořili metodu nazvanou *RubiCap*, která umožňuje malým modelům umělé inteligence generovat přesnější a podrobnější popisy obrázků než jejich velké ekvivalenty.

Jak RubiCap funguje
1. Analýza obrazu

Aby model mohl vytvořit detailní text, nejprve rozpozná mnoho objektů a oblastí v rámci snímku. To poskytuje hluboké porozumění kompozici, nikoli povrchní popis.

2. Praktická hodnota

Tyto dovednosti jsou užitečné pro trénink podřízených modelů AI, generátorů obrázků na základě textu a specializovaných funkcí (např. vylepšení vizuálního obsahu).

3. Problém zdrojů

Tradiční přístupy k výcviku systémů detailního popisu vyžadují velké výpočetní náklady jak na počáteční fázi, tak při následném posilovaném učení.

Experimentální metodika
- Výběr obrázků – náhodně vybráno 50 000 obrázků z sad *PixMoCap* a *DenseFusion‑4V‑100K*.

- Generování popisů – použity stávající modely počítačového vidění: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT a Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, stejně jako právě trénované modely Apple.

- Hodnocení kvality – Gemini 2.5 Pro působila jako expert: analyzovala popisy, odhalovala shody a chyby, formulovala jasná kritéria hodnocení.

- Soudní hodnocení – model Qwen 2.5‑7B‑Instruct přidělil body podle každého kritéria a generoval signál odměny pro trénovaný model.

Výsledky
- Trénovaný model dostával konkrétní zpětnou vazbu, což umožnilo rychle zlepšovat přesnost popisů bez nutnosti spoléhat se na jedinou „správnou“ odpověď.

- Nakonec Apple vytvořila tři vlastní modely: RubiCap‑2B, RubiCap‑3B a RubiCap‑7B (odpovídající 2, 3 a 7 miliardám parametrů).

- Při testech na úkolu popisu obrázků RubiCap překonal konkurenty s 32 miliardami a dokonce i s 72 miliardami parametrů. V některých případech RubiCap‑3B ukázal lepší výsledky než RubiCap‑7B, což potvrzuje, že velikost modelu ne vždy zaručuje vyšší výkon.

Tímto způsobem technologie RubiCap demonstruje, jak lze dosáhnout vysoké kvality popisu obrázků s menšími zdroji a efektivnějším učením.

Komentáře (0)

Podělte se o svůj názor — prosím, buďte slušní a držte se tématu.

Zatím žádné komentáře. Zanechte komentář a podělte se o svůj názor!

Chcete-li zanechat komentář, přihlaste se.

Přihlaste se pro komentování