Novinky ze světa AI: NVIDIA chrlí nové technologie, Google a Qwen posouvají autonomní programování na novou úroveň
Cosmos 3 – NVIDIA
Cosmos 3 je omnimodální world model od NVIDIA určený pro oblast Physical AI. V jednom systému propojuje porozumění, generování, simulaci i rozhodování nad textem, obrazem, videem, audiem a robotickými akcemi. Pokrývá šest klíčových schopností – od vision-language reasoning přes generování obrazu a videa až po robot policy a modelování forward či inverse dynamics.
Model posouvá open ekosystém směrem k modelům, které nejsou zaměřené pouze na jazyk nebo obraz, ale dokážou podporovat celé simulační a robotické workflow.
NVIDIA uvádí přední výsledky v benchmarcích zaměřených na robotiku, smart spaces, autonomní řízení i generativní úlohy typu text-to-image, image-to-video a robot policy. Součástí vydání jsou navíc modely, zdrojový kód, model cards i podrobná technická dokumentace.
Podle nás jsou právě podobné foundation modely zajímavým směrem pro organizace, které chtějí budovat vlastní AI řešení pro robotiku, průmyslovou automatizaci nebo digitální simulace a zároveň si zachovat kontrolu nad infrastrukturou i daty bez závislosti na uzavřených platformách.
Zdroje: projekt Cosmos 3 od NVIDIA Research, video Introducing NVIDIA Cosmos 3.
PiD – NVIDIA
PiD (Pixel-space Improved Decoding) je nový dekódovací přístup pro latentní difuzní modely, který spojuje dekódování latentní reprezentace a zvýšení rozlišení do jediného kroku. Na rozdíl od tradičního postupu, kdy se obrázek nejprve dekóduje a následně prochází samostatným super-resolution modelem, PiD generuje výsledný obraz přímo ve vysokém rozlišení v pixelovém prostoru.
Model umožňuje převod z rozlišení 512 × 512 na 2 048 × 2 048 za méně než 210 ms na platformě GB200 a přináší až šestinásobné zrychlení oproti kaskádovým řešením.
Nejde pouze o další optimalizaci výkonu, ale o změnu samotného způsobu inference. NVIDIA uvádí, že PiD dosahuje 99,4 % preference vůči nejlepší srovnávané baseline a zároveň funguje napříč různými latentními reprezentacemi a modelovými architekturami, včetně FLUX, SD3 nebo DINOv2. To naznačuje, že by mohl najít uplatnění napříč širokým spektrem generativních AI systémů.
Zdroje: projekt PiD od NVIDIA Research.
Deja View – NVIDIA
Deja View je nový model pro multi-view 3D rekonstrukci, který využívá odlišný přístup než většina současných systémů. Namísto hluboké sítě složené z mnoha unikátních vrstev opakovaně používá stejný transformer blok, přičemž počet iterací při zpřesňování výsledku slouží jako praktický parametr pro řízení výpočetní náročnosti během inference.
Model má pouze 117 milionů parametrů, přesto v pěti benchmarkových testech dorovnává nebo překonává výrazně větší modely, jako jsou pi3 (959 M parametrů), VGGT (1 257 M parametrů) nebo Depth Anything 3-G (1 201 M parametrů).
Navíc zpochybňuje rozšířený předpoklad, že vyšší přesnost automaticky vyžaduje větší model. NVIDIA ukazuje, že v oblasti 3D rekonstrukce může být iterativní zpřesňování efektivnější cestou než pouhé navyšování počtu parametrů.
Firmy zaměřené na robotiku, autonomní systémy či 3D modelování mohou ocenit kombinaci nižší výpočetní náročnosti a jednoduššího škálování.
Zdroje: projekt Deja View od NVIDIA Research.
Nemotron 3 Ultra – NVIDIA
Nemotron 3 Ultra 550B A55B je zatím nejvýkonnější otevřený LLM od NVIDIA. Jde o MoE model s 550 miliardami celkových a 55 miliardami aktivních parametrů, který využívá hybridní architekturu Mamba-Attention, routování LatentMoE a nativní podporu speculative decoding. NVIDIA uvádí až 5× vyšší throughput, respektive až 5,9× rychlejší inferenci než srovnatelné otevřené modely, například GLM-5.1, při zachování podobné kvality.
Model cílí především na agentické workflow, kde je vedle přesnosti důležitá také rychlost a cena provozu. NVIDIA uvádí až 30% snížení nákladů, kontextové okno o velikosti 1 milion tokenů, otevřenou licenci OpenMDW-1.1 a kompletní zveřejnění checkpointů, datasetů i tréninkových receptů. Ve srovnání s GLM-5.1 nebo Kimi K2.6 zaujme hlavně kombinací vysokého výkonu a efektivní inference.
Pro týmy, které chtějí model provozovat ve vlastní infrastruktuře, jsou zajímavé také varianty BF16 a NVFP4. Právě zde dává smysl testovat chování modelu na dedikovaném AI GPU serveru, kde si ověříte skutečný throughput, spotřebu paměti i to, zda se podobně velký open model hodí pro Váš produkční provoz.
Zdroje: NVIDIA blog k Nemotron 3 Ultra, výzkumná stránka Nemotron 3 Ultra, video Nemotron 3 Ultra Tutorial.
Gemma 4 12B – Google
Gemma 4 12B od Google DeepMind je multimodální model střední velikosti navržený tak, aby mohl běžet lokálně i na běžném notebooku s 16 GB RAM. Novinkou je encoder-free architektura, ve které obraz i audio vstupují přímo do jazykového modelu bez potřeby samostatných encoderů. Gemma 4 12B se tak stává první středně velkou verzí řady Gemma s nativní podporou zpracování audia.
Praktická je především kombinace výkonu a nízkých hardwarových nároků. Podle Google se model výkonově přibližuje většímu 26B MoE modelu, ale s výrazně menší paměťovou stopou.
Výhodou je také otevřená licence Apache 2.0 a rychlá podpora v populárních nástrojích, jako jsou Hugging Face, Ollama, llama.cpp nebo vLLM. Díky tomu může být zajímavou volbou pro lokální AI aplikace, multimodální asistenty i firemní nasazení bez závislosti na cloudových službách.
Zdroje: představení Gemma 4 12B od Google, video k Gemma 4 12B.
MiniMax M3 – MiniMax
MiniMax M3 je open-weight LLM, který kombinuje silné schopnosti v programování, agentickém reasoning, multimodálním zpracování dat a práci s kontextem o velikosti až 1 milion tokenů. Dle společnosti MiniMax jde o první otevřený model, který tuto kombinaci nabízí v jednom řešení. Model byl od začátku trénován na textových i obrazových datech v rozsahu přes 100 bilionů tokenů a využívá architekturu Sparse Attention.
Model cílí především na dlouhodobě běžící agentické workflow. MiniMax ukazuje například schopnost samostatně reprodukovat vědecký článek z konference ICLR během 12 hodin nebo optimalizovat CUDA FP8 GEMM kernel s výrazným zrychlením bez lidského zásahu.
Právě podobné scénáře jsou důležité pro vývojové týmy, které řeší automatizaci výzkumu, práci s rozsáhlými repozitáři nebo dlouhé agentické workflow vyžadující vysokou míru autonomie.
Zdroje: stránka modelu MiniMax M3, video k MiniMax M3.
DeepSWE – Datacurve
DeepSWE je nový benchmark od společnosti Datacurve zaměřený na hodnocení pokročilých AI coding agentů v rozsáhlých softwarově-inženýrských úlohách. Obsahuje 113 ručně připravených zadání nad 91 aktivními open-source repozitáři v jazycích TypeScript, Go, Python, JavaScript a Rust. Každá úloha vyžaduje orientaci v kódu, úpravy ve více souborech a následné ověření správnosti řešení. V průměru jde o 668 přidaných řádků kódu napříč sedmi soubory.
Samotné úlohy nejsou převzaté z již existujících pull requestů. Benchmark tak výrazně omezuje problém „benchmark leakage“, tedy situaci, kdy model zná řešení z trénovacích dat. To je častá výtka vůči starším sadám, jako je SWE-Bench Pro. Podle žebříčku z 30. května 2026 vede GPT-5.5 se skóre 70 %, následují Claude Opus 4.8 s 58 % a GPT-5.4 s 56 %.
Navíc DeepSWE nesleduje pouze úspěšnost řešení, ale i cenu, délku běhu a spotřebu tokenů. Právě tyto metriky totiž často rozhodují o tom, zda je konkrétní AI agent vhodný pro nasazení do reálných vývojových workflow.
Pokud podobné agenty plánujete integrovat přes API do vlastních workflow, dává smysl sledovat i Pronájem LLM s API, kde můžete modely napojit do interních nástrojů bez stavby celé integrační vrstvy od nuly.
Zdroje: benchmark DeepSWE, leaderboard DeepSWE z 30. 5. 2026.
Qwen3.7-Max – Qwen
Qwen3.7-Max je proprietární model od Alibaba Cloud navržený s důrazem na agentické workflow, programování a kancelářskou automatizaci. Zaměřuje se na dlouhé autonomní běhy v řádu tisíců kroků a podle zveřejněných výsledků dosahuje špičkových výsledků v řadě benchmarků. Na Terminal Bench 2.0 obsazuje první příčky, v SWE-Verified se pohybuje na úrovni Claude Opus 4.6 a patří také mezi nejlepší modely v testech GPQA Diamond, HLE, HMMT 2026 nebo IMO.
Zajímavé jsou především praktické ukázky nasazení. Qwen3.7-Max měl více než 24 hodin autonomně optimalizovat kernel pro neznámý hardware a dosáhnout výrazně lepšího výkonu než referenční implementace v Tritonu. Další prezentované testy ukazují znatelné zlepšení v benchmarku YC-Bench oproti starším modelům Qwen3.6-Plus a Qwen3.5-Plus.
Pro firmy a vývojové týmy je důležitý zejména v situacích, kdy potřebují dlouhá autonomní workflow kombinující programování, analýzu a rozhodování. Výhodou je také kompatibilita s různými agentickými nástroji a harnessy, jako jsou Claude Code, OpenClaw nebo Qwen Code, což usnadňuje integraci do existujících AI workflow.
Zdroje:představení Qwen3.7-Max, video k Qwen3.7-Max.
Qwen3.7-Plus – Qwen
Qwen3.7-Plus představuje multimodální agentický model, který spojuje vizuální vnímání a jazykové schopnosti do jednoho systému. Umí pracovat s obrazovkou, rozpoznávat prvky uživatelského rozhraní, ovládat aplikace, generovat kód podle grafické předlohy a propojit činnosti v GUI i příkazové řádce v rámci jednoho workflow.
Ve zveřejněných benchmarkech dosahuje velmi dobrých výsledků v GUI a mobilních agentických úlohách a zároveň posiluje schopnosti multimodálního porozumění.
Schopnosti modelu ilustrují i prezentované ukázky. Qwen demonstruje autonomní vývoj aplikace od prvotního zadání přes implementaci až po testování a vytvoření dokumentace. Další příklad ukazuje rekonstrukci aplikace macOS Stocks včetně integrace živých tržních dat.
Z pohledu firem je zajímavý především tím, že dokáže zastat více rolí současně. Může sloužit jako základ pro interní AI asistenty, automatizované testování, podporu vývoje nebo ovládání podnikových aplikací, aniž by bylo nutné nasazovat několik různých modelů pro jednotlivé úlohy.
Zdroje: představení Qwen3.7-Plus.








