Apple vycvičila kompaktní modely AI lépe popisovat obrázky než jejich větší konkurenti
Apple představuje novou technologii „RubiCap“ pro popis obrázků
Vědci společnosti Apple vytvořili metodu nazvanou *RubiCap*, která umožňuje malým modelům umělé inteligence generovat přesnější a podrobnější popisy obrázků než jejich velké ekvivalenty.
Jak RubiCap funguje
1. Analýza obrazu
Aby model mohl vytvořit detailní text, nejprve rozpozná mnoho objektů a oblastí v rámci snímku. To poskytuje hluboké porozumění kompozici, nikoli povrchní popis.
2. Praktická hodnota
Tyto dovednosti jsou užitečné pro trénink podřízených modelů AI, generátorů obrázků na základě textu a specializovaných funkcí (např. vylepšení vizuálního obsahu).
3. Problém zdrojů
Tradiční přístupy k výcviku systémů detailního popisu vyžadují velké výpočetní náklady jak na počáteční fázi, tak při následném posilovaném učení.
Experimentální metodika
- Výběr obrázků – náhodně vybráno 50 000 obrázků z sad *PixMoCap* a *DenseFusion‑4V‑100K*.
- Generování popisů – použity stávající modely počítačového vidění: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT a Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, stejně jako právě trénované modely Apple.
- Hodnocení kvality – Gemini 2.5 Pro působila jako expert: analyzovala popisy, odhalovala shody a chyby, formulovala jasná kritéria hodnocení.
- Soudní hodnocení – model Qwen 2.5‑7B‑Instruct přidělil body podle každého kritéria a generoval signál odměny pro trénovaný model.
Výsledky
- Trénovaný model dostával konkrétní zpětnou vazbu, což umožnilo rychle zlepšovat přesnost popisů bez nutnosti spoléhat se na jedinou „správnou“ odpověď.
- Nakonec Apple vytvořila tři vlastní modely: RubiCap‑2B, RubiCap‑3B a RubiCap‑7B (odpovídající 2, 3 a 7 miliardám parametrů).
- Při testech na úkolu popisu obrázků RubiCap překonal konkurenty s 32 miliardami a dokonce i s 72 miliardami parametrů. V některých případech RubiCap‑3B ukázal lepší výsledky než RubiCap‑7B, což potvrzuje, že velikost modelu ne vždy zaručuje vyšší výkon.
Tímto způsobem technologie RubiCap demonstruje, jak lze dosáhnout vysoké kvality popisu obrázků s menšími zdroji a efektivnějším učením.
Komentáře (0)
Podělte se o svůj názor — prosím, buďte slušní a držte se tématu.
Přihlaste se pro komentování