Novinky ze světa AI: ChatGPT-5.5 ukazuje nástup nové generace AI agentů

14. května 2026

•

Květnové AI novinky potvrzují, že se vývoj umělé inteligence posouvá od klasických chatbotů směrem k autonomnějším agentům, AI programování a efektivnějšímu provozu modelů na vlastní infrastruktuře. OpenAI rozvíjí GPT-5.5 a Codex 3.0, zatímco NVIDIA, Moonshot AI, DeepSeek a Qwen přicházejí s novými modely pro multimodální práci, generování kódu i lokální AI infrastrukturu.

1) ChatGPT-5.5 – OpenAI

OpenAI představilo ChatGPT-5.5, nový frontier model zaměřený na řešení komplexnějších úloh a samostatnější práci s více kroky.

Nová generace modelu má lépe chápat dlouhá zadání, efektivněji využívat nástroje, průběžně kontrolovat vlastní výstupy a dotahovat úkoly až do finálního výsledku. Nejde tedy jen o kvalitnější konverzaci, ale o další krok směrem k reálně použitelným AI agentům.

Mezi hlavní novinky patří vylepšený reasoning režim, rozsáhlé kontextové okno, pokročilejší práce s textem i obrazem a výrazně silnější schopnosti v programování. GPT-5.5 zároveň pohání nejen ChatGPT, ale také Codex, takže nové možnosti modelu se promítají i do AI nástrojů pro vývojáře.

Zdroje: představení GPT-5.5 od OpenAI, video Introducing GPT-5.5.

2) Codex 3.0 – OpenAI

Codex 3.0 od OpenAI posouvá AI asistenta pro programování blíže k autonomnímu vývojovému agentovi. Díky modelu GPT-5.5 zvládá nejen generování kódu, ale také návrh aplikací, testování, ladění i řešení vícekrokových úloh v rámci celého vývojového procesu.

Nově se více zaměřuje také na práci s vizuálním prostředím a webovým prohlížečem, kde dokáže simulovat běžné uživatelské workflow.

Velkým tématem je propojení s browser automation, terminálem, síťovými logy nebo kancelářskými nástroji typu Microsoft Office a Google Drive. Cílem je automatizovat větší část workflow build, test a debug, což může výrazně urychlit vývoj aplikací i interní QA procesy.

Pokud chcete podobné agentické workflow integrovat do vlastních systémů přes API, může být zajímavou volbou také Pronájem LLM s API. Služba umožňuje napojení jazykových modelů do interních nástrojů, automatizací nebo firemních aplikací.

3) GPT Realtime 2 – OpenAI

OpenAI rozšířilo své Realtime API o trojici nových hlasových modelů zaměřených na pokročilejší práci se zvukem a hlasovou komunikací. Hlavní novinkou je GPT Realtime 2, které přináší konfigurovatelný reasoning ve speech-to-speech scénářích, přesnější dodržování instrukcí a spolehlivější práci s nástroji při složitějších hlasových workflow.

Současně byly představeny také modely GPT Realtime Translate pro průběžný překlad řeči v reálném čase a GPT Realtime Whisper zaměřený na živý přepis audia, titulky nebo automatické poznámky.

Podle OpenAI jsou všechny tři modely připravené pro produkční nasazení. To otevírá nové možnosti například pro call centra, hlasové asistenty, zákaznickou podporu nebo aplikace s hlasovým ovládáním.

Zdroje: OpenAI o nových hlasových modelech v API.

4) Grok 4.3 – xAI

Grok 4.3 od xAI navazuje na předchozí generaci modelů, ale přináší upravenou architekturu, delší trénink a aktualizovaný knowledge cutoff z prosince 2025. Přestože velikost modelu zůstává podobná jako u verze 4.2, cílem je výrazně posílit reasoning schopnosti a práci s komplexnějšími vícekrokovými úlohami.

Novinkou je také přepracované API a nižší provozní náklady. Cena vstupních tokenů má být oproti předchozí verzi téměř poloviční, což může být zajímavé hlavně pro firmy a vývojáře pracující s větším objemem požadavků.

Určitým limitem ale nadále zůstává absence dlouhodobé paměti mezi jednotlivými relacemi. To komplikuje práci na rozsáhlejších projektech nebo tvorbu personalizovanějších AI asistentů.

Zdroj: release notes Grok 4.3.

5) Nemotron 3 Nano Omni – NVIDIA

NVIDIA představila Nemotron 3 Nano Omni, open omni-modal reasoning model postavený na architektuře MoE. Model kombinuje práci s textem, obrazem, zvukem i videem, takže je určen hlavně pro AI agenty a workflow, která potřebují zpracovávat více typů vstupů současně.

Model využívá celkem 30 miliard parametrů, přičemž aktivní část tvoří 3 miliardy parametrů. Podle NVIDIA přináší až několikanásobně vyšší efektivitu u agentických scénářů, jako je computer use, práce s dokumenty nebo audio-video reasoning. K dispozici jsou varianty NVFP4, FP8 i BF16, takže je možné lépe vyvažovat výkon, přesnost a hardwarové nároky.

Pro firmy a týmy, které chtějí podobné multimodální modely provozovat nebo testovat na vlastní infrastruktuře, může být vhodným řešením také AI GPU server. Dedikovaný GPU výkon umožňuje ověřit reálnou rychlost inference, spotřebu VRAM i chování modelů v praktických agentických úlohách.

Zdroje: NVIDIA blog, Nemotron 3 Nano Omni na Hugging Face, video NVIDIA Nemotron 3 Nano Omni.

6) Kimi-K2.6 – Moonshot AI

Kimi-K2.6 od Moonshot AI patří mezi nejvýraznější nové open-weight multimodální modely zaměřené na agentické workflow. Model s architekturou o velikosti 1 bilionu parametrů cílí především na programování, automatizaci a řešení rozsáhlých vícekrokových úloh.

Podle zveřejněných benchmarků se Kimi-K2.6 výkonem přibližuje GPT-5.5 například v testu SWE-Bench Pro a velmi silných výsledků dosahuje také v benchmarku Humanity’s Last Exam při použití nástrojů.

Velkým tématem jsou zároveň provozní náklady. Moonshot AI uvádí výrazně nižší cenu za milion tokenů oproti uzavřeným frontier modelům, což může být důležité hlavně pro větší produkční nasazení.

Model je navržený pro rozsáhlé agentické scénáře a podle dostupných informací dokáže koordinovat stovky sub-agentů i tisíce navazujících kroků v rámci jednoho workflow. Pokud se podobné parametry potvrdí i v reálném provozu, může se Kimi-K2.6 zařadit mezi nejvýkonnější otevřené modely pro AI automatizaci, vývoj softwaru a analytické úlohy.

Zdroje: blog Kimi-K2.6, Kimi-K2.6 na Hugging Face, video Meet Kimi K2.6.

7) DeepSeek-V4-Pro – DeepSeek

DeepSeek-V4-Pro od DeepSeek je preview verze rozsáhlého Mixture-of-Experts modelu zaměřeného na špičkový výkon v reasoningu, programování a vícejazyčných úlohách. Model využívá architekturu s 1,6 bilionu parametrů, přičemž aktivně pracuje s přibližně 49 miliardami parametrů.

Novinka dobře ukazuje, jak rychle se open-weight modely přibližují nejvýkonnějším uzavřeným AI systémům. DeepSeek cílí především na náročnější agentické workflow, generování kódu a komplexní analytické úlohy, kde hraje velkou roli dlouhý kontext a schopnost vícekrokového reasoning procesu.

Kvůli velikosti a hardwarovým nárokům ale nepůjde o model vhodný pro běžné lokální nasazení. DeepSeek-V4-Pro míří spíše do výkonných serverových sestav, GPU clusterů nebo firemní AI infrastruktury, kde lze podobné modely provozovat efektivněji a bez výrazných omezení výkonu.

Zdroje: DeepSeek-V4-Pro na Hugging Face, video shrnutí DeepSeek V4.

8) DeepSeek-V4-Flash – DeepSeek

DeepSeek-V4-Flash je efektivnější a rychlejší varianta modelu DeepSeek V4-Pro. Využívá architekturu s 284 miliardami celkových parametrů a přibližně 13 miliardami aktivních parametrů během inference, díky čemuž se zaměřuje na lepší rovnováhu mezi výkonem, rychlostí a provozními náklady.

Zdroj: DeepSeek-V4-Flash na Hugging Face.

9) Qwen3.6-35B-A3B – Qwen

Qwen3.6-35B-A3B je nový otevřený MoE model od Qwen, který kombinuje celkovou velikost 35 miliard parametrů s přibližně 3 miliardami aktivních parametrů během inference. Model je zaměřený hlavně na agentické programování, generování kódu a praktické vývojářské workflow, kde hraje důležitou roli poměr mezi výkonem, cenou a efektivitou provozu.

Silnou stránkou modelu je také práce s velmi dlouhým kontextem. Podle prvních uživatelských testů si Qwen3.6-35B-A3B udržuje stabilní výsledky i při kontextu okolo 200 tisíc tokenů, a to i v kvantizovaných verzích modelu. To může být velmi užitečné při práci nad rozsáhlými repozitáři, technickou dokumentací nebo dlouhými zadáními, kde běžné modely často ztrácejí konzistenci.

Zdroje: Qwen blog, Qwen3.6-35B-A3B na Hugging Face, video Qwen3.6 vs Gemma 4.

10) Qwen3.6-27B – Qwen

Qwen3.6-27B od Qwen je dense model s 27 miliardami parametrů zaměřený především na programování a technické úlohy. Oproti velkým MoE modelům cílí na jednodušší nasazení a efektivnější provoz při zachování velmi vysokého výkonu v coding scénářích.

Podle prvních benchmarků dokáže model překonávat i některé výrazně větší systémy a výkonově se přibližuje nejnovějším verzím modelů Claude Opus. Právě kombinace silného coding výkonu a kompaktnější architektury dělá z Qwen3.6-27B zajímavou volbu pro firmy nebo vývojové týmy, které chtějí provozovat výkonný lokální model bez nutnosti budovat infrastrukturu kolem extrémně velkých MoE systémů.

Zdroje: Qwen3.6-27B blog, Qwen3.6-27B na Hugging Face, videoshrnutí Qwen3.6-27B.

11) ZAYA1-8B – Zyphra

ZAYA1-8B od Zyphra je reasoning MoE model, který kombinuje 8 miliard celkových parametrů s pouhými 700 miliony aktivních parametrů během inference. Přesto má podle dostupných výsledků konkurovat výrazně větším modelům v matematice, programování i komplexnějším reasoning úlohám.

Zajímavostí je také způsob tréninku. Model byl trénován na akcelerátorech AMD Instinct MI300. To ukazuje, že vývoj pokročilých AI modelů už není navázán pouze na ekosystém NVIDIA. Rostoucí konkurence mezi výrobci AI hardwaru může do budoucna pozitivně ovlivnit dostupnost infrastruktury i cenu tréninku a provozu modelů.

Zdroje: Zyphra blog, ZAYA1-8B na Hugging Face.

12) Ternary Bonsai 8B – PrismML

Ternary Bonsai 8B od PrismML ukazuje, kam se posouvá extrémní komprese AI modelů. Díky ternární reprezentaci s přibližně 1,58 bitu na váhu se celý 8B model vejde zhruba do 1,75 GB, což je výrazně méně než u klasických full-precision variant podobné velikosti.

Přesto si model podle dostupných benchmarků drží velmi solidní výkon a překonává starší generace 1-bit modelů. PrismML uvádí průměrné benchmark skóre okolo 75,5 a rychlost přibližně 82 tokenů za sekundu. Velkým tématem je ale hlavně efektivita. Model má nabídnout výrazně nižší energetické nároky a rychlejší inference oproti běžným dense modelům.

Právě podobné technologie mohou být důležité pro levnější lokální AI, edge zařízení nebo interní asistenty, kde není prioritou absolutně nejvyšší kvalita výstupu, ale spíše nízké hardwarové nároky, rychlost a provozní efektivita.

Zdroje: PrismML Ternary Bonsai, Ternary Bonsai 8B GGUF na Hugging Face, video test Ternary Bonsai.

Předchozí článek Od obsahu k důvěře: Jak reálně budovat E-E-A-T