Apple vycvičila kompaktní modely AI lépe popisovat obrázky než jejich větší konkurenti

08.04.2026 20 software

Apple představuje novou technologii „RubiCap“ pro popis obrázků

Vědci společnosti Apple vytvořili metodu nazvanou *RubiCap*, která umožňuje malým modelům umělé inteligence generovat přesnější a podrobnější popisy obrázků než jejich velké ekvivalenty.

Jak RubiCap funguje
1. Analýza obrazu

Aby model mohl vytvořit detailní text, nejprve rozpozná mnoho objektů a oblastí v rámci snímku. To poskytuje hluboké porozumění kompozici, nikoli povrchní popis.

2. Praktická hodnota

Tyto dovednosti jsou užitečné pro trénink podřízených modelů AI, generátorů obrázků na základě textu a specializovaných funkcí (např. vylepšení vizuálního obsahu).

3. Problém zdrojů

Tradiční přístupy k výcviku systémů detailního popisu vyžadují velké výpočetní náklady jak na počáteční fázi, tak při následném posilovaném učení.

Experimentální metodika
- Výběr obrázků – náhodně vybráno 50 000 obrázků z sad *PixMoCap* a *DenseFusion‑4V‑100K*.

- Generování popisů – použity stávající modely počítačového vidění: Google Gemini 2.5 Pro, OpenAI GPT‑5, Alibaba Qwen 2.5‑VL‑72B‑Instruct, Google Gemma‑3‑27B‑IT a Alibaba Qwen 3‑VL‑30B‑A3B‑Instruct, stejně jako právě trénované modely Apple.

- Hodnocení kvality – Gemini 2.5 Pro působila jako expert: analyzovala popisy, odhalovala shody a chyby, formulovala jasná kritéria hodnocení.

- Soudní hodnocení – model Qwen 2.5‑7B‑Instruct přidělil body podle každého kritéria a generoval signál odměny pro trénovaný model.

Výsledky
- Trénovaný model dostával konkrétní zpětnou vazbu, což umožnilo rychle zlepšovat přesnost popisů bez nutnosti spoléhat se na jedinou „správnou“ odpověď.

- Nakonec Apple vytvořila tři vlastní modely: RubiCap‑2B, RubiCap‑3B a RubiCap‑7B (odpovídající 2, 3 a 7 miliardám parametrů).

- Při testech na úkolu popisu obrázků RubiCap překonal konkurenty s 32 miliardami a dokonce i s 72 miliardami parametrů. V některých případech RubiCap‑3B ukázal lepší výsledky než RubiCap‑7B, což potvrzuje, že velikost modelu ne vždy zaručuje vyšší výkon.

Tímto způsobem technologie RubiCap demonstruje, jak lze dosáhnout vysoké kvality popisu obrázků s menšími zdroji a efektivnějším učením.

Apple vycvičila kompaktní modely AI lépe popisovat obrázky než jejich větší konkurenti

Related news

Google Gemini získalo 750 milionů měsíčních aktivních uživatelů a zanechalo ChatGPT jen na malé vzdálenosti od lídra.

Nothing představila beta-verzi Essential Apps – platformu pro tvorbu miniaplikací pomocí umělé inteligence

Microsoft vysvětlila, proč jsou zablokovány účty VeraCrypt a dalších otevřených služeb – kvůli nedbalosti jejich tvůrců

Aplikace Meta✴ AI obsadila páté místo v App Store po spuštění Muse Spark

Komentáře (0)

Přihlaste se pro komentování

Apple vycvičila kompaktní modely AI lépe popisovat obrázky než jejich větší konkurenti

Related news

Google Gemini získalo 750 milionů měsíčních aktivních uživatelů a zanechalo ChatGPT jen na malé vzdálenosti od lídra.

Nothing představila beta-verzi Essential Apps – platformu pro tvorbu miniaplikací pomocí umělé inteligence

Microsoft vysvětlila, proč jsou zablokovány účty VeraCrypt a dalších otevřených služeb – kvůli nedbalosti jejich tvůrců

Aplikace Meta✴ AI obsadila páté místo v App Store po spuštění Muse Spark

Přihlaste se pro komentování

Google Gemini získalo 750 milionů měsíčních aktivních uživatelů a zanechalo ChatGPT jen na malé vzdálenosti od lídra.

Nothing představila beta-verzi Essential Apps – platformu pro tvorbu miniaplikací pomocí umělé inteligence

Aplikace Meta✴ AI obsadila páté místo v App Store po spuštění Muse Spark