Novinky ze světa AI: Gemma 4 posouvá open source AI na novou úroveň
Google přichází s modelem Gemma 4, který výrazně rozšiřuje možnosti open source AI. Nová generace nabízí jak silnější varianty pro náročné nasazení, tak menší modely vhodné pro úsporný provoz. Zároveň umožňuje rychlé vyzkoušení v praxi. To z ní dělá jednu z nejdůležitějších novinek pro každého, kdo sleduje dostupné a výkonné otevřené modely.
1) Gemma 4 – Google
Google uvedl čtyři varianty modelu Gemma 4 pod licencí Apache 2.0. Ta je z pohledu firem zajímavá díky možnosti komerčního využití i větší otevřenosti. Největší pozornost přitahuje verze Gemma 4 (31B), která posouvá výkon oproti předchozí generaci a míří na uživatele hledající co nejsilnější open source model v této kategorii.
Vedle ní přicházejí i úspornější varianty Gemma 4 E2B a E4B. Ty cílí na efektivní provoz s nižšími nároky na hardware. Smysl dávají zejména v prostředích, kde je potřeba šetřit výkonem, například na koncových zařízeních nebo v mobilních aplikacích.
Zajímavým kompromisem je také Gemma 4 26B-A4B. Model sice nedosahuje výkonu největší varianty, ale částečně to kompenzuje vyšší rychlostí generování.
Oficiální představení What’s new in Gemma 4 přímo od Google
Hlavní přínos Gemma 4 spočívá v tom, že rozšiřuje spektrum dostupných open source modelů napříč různými úrovněmi výkonu. Uživatelé si tak mohou lépe vybrat podle konkrétních potřeb, ať už jde o maximální výkon, nižší paměťové nároky nebo rychlejší odezvu. Pokud si chcete Gemma 4 31B a Gemma 4 26B rovnou vyzkoušet zdarma, můžete využít také AirGPT.cz.
Zdroje: článek od Google, Gemma 4 31B na Hugging Face, Gemma 4 26B-A4B na Hugging Face, Gemma 4 E4B na Hugging Face, AirGPT.cz.
2) Turbo Quant – Google
Google představil také technologii Turbo Quant, která přináší nový přístup ke kvantizaci modelů. Podle dostupných informací by měla umožnit provoz až na úrovni Q3 bez výrazného poklesu kvality. Součástí řešení je i komprese KV cache. To hraje důležitou roli při práci s delším kontextem a efektivnějším využití paměti.
Na první pohled jde o zajímavý krok směrem k dostupnějšímu provozu větších modelů. Nižší kvantizace totiž obvykle znamená menší nároky na hardware a širší možnosti nasazení mimo velké cloudové infrastruktury.
První neoficiální testy ale ukazují, že rychlost generování nemusí být vždy ideální, a reálný přínos tak bude potřeba posoudit až podle finálních implementací.
V praxi se navíc ukazuje, že při práci s většími modely nebo při testování výkonu bývá výhodnější mít k dispozici vlastní výpočetní kapacitu. Řada týmů proto volí dedikované AI GPU servery. Ty umožňují mít výkon, paměť i celé prostředí plně pod kontrolou bez závislosti na sdílených zdrojích.
Zdroj: research od Google.
3) Claude Mythos Preview – Anthropic
Anthropic představil neveřejný model Claude Mythos Preview. Ten byl vyvíjen především jako pokročilý nástroj pro programování. V praxi se ale ukázalo, že vyniká i v oblasti bezpečnosti, kde dokáže odhalovat exploity, zranitelnosti a kritické chyby napříč systémy, prohlížeči i aplikacemi.
Claude Mythos Preview v krátkém video shrnutí
Nejde tedy o model zaměřený výhradně na security, ale o silný coding model, který se v této oblasti projevil jako překvapivě efektivní.
Právě tyto schopnosti jsou zároveň důvodem, proč zatím není veřejně dostupný. Anthropic upozorňuje na riziko zneužití, protože nástroj, který dokáže výrazně pomoci při zabezpečení systémů, může být stejně dobře využit i k jejich napadení.
Z pohledu interní bezpečnosti je zásadní především to, že podobné modely dokážou výrazně urychlit audit aplikací, knihoven i vlastního kódu. Pokud hledáte službu, přes kterou můžete podobné modely rychle napojit do vlastních aplikací a workflow, podívejte se na Pronájem LLM s API.
Zdroje: Projekt Glasswing, research článek, další video shrnutí.
4) Claude Code – Anthropic
Anthropic zároveň upravil limity předplatného pro Claude Code, přičemž změny podle dostupných informací dopadly zejména na nástroje jako OpenClaw.
Tento open-source framework umožňuje provozovat autonomní AI agenty přímo v komunikačních aplikacích typu Telegram, WhatsApp nebo Discord. Nové nastavení tak omezuje volnější využití přes externí nástroje a více uživatele směřuje do oficiálního ekosystému Anthropicu.
Video shrnutí změn kolem Claude Code a omezení napojení na OpenClaw
Velký ohlas vyvolal také únik části Claude Code, který odkryl, jak nástroj funguje v zákulisí. Nešlo jen o reputační komplikaci, ale i o cenný vhled do architektury systému, jeho logiky a způsobu, jakým je navržené samotné workflow.
Zdroje: video shrnutí úniku source code.
5) Rotor Quant – Scrya
Společnost Scrya představila technologii Rotor Quant. Ta se podle prvních informací zaměřuje na nedostatky, jež se objevily u řešení Turbo Quant od Google. Pokud se její výsledky potvrdí i v reálném nasazení, může jít o významný posun v oblasti efektivní inference větších modelů bez zásadního dopadu na výkon nebo rychlost.
Kvantizace dnes hraje klíčovou roli v tom, kde a jak lze AI modely provozovat. Právě ona často rozhoduje, zda je možné model spustit lokálně nebo ve firemní infrastruktuře, případně zda je nutné využít velké cloudové prostředí.
Rotor Quant tak může být zajímavý nejen pro vývojáře, ale i pro interní AI týmy, které hledají efektivnější a nákladově dostupnější způsob nasazení bez výrazných kompromisů.
Zdroj: článek o Rotor Quant.
6) Qwen3.5-Omni – Alibaba
Alibaba rozšiřuje svou AI řadu Qwen o model Qwen3.5-Omni, který vedle textu pracuje i s obrazem, videem a zvukem. Nejde tak jen o klasický jazykový model, ale o multimodální systém schopný propojit různé typy vstupů v rámci jednoho workflow.
Z praktického hlediska je zajímavé hlavně to, že Qwen3.5-Omni dokáže z kombinace videa a textového zadání vytvořit například kód nebo návrh řešení. Tím výrazně posouvá možnosti práce s AI za hranice běžného textového promptování.
V komerční praxi se tak může uplatnit třeba při automatizaci analýzy vizuálních dat, tvorbě interní dokumentace nebo převodu obrazových postupů do strukturované, strojově využitelné podoby.
7) Qwen3.6-Plus – Alibaba
Další výraznou novinkou je Qwen3.6-Plus. Tento model není open source a podle dostupných informací míří výkonem na úroveň silných modelů, jako je Claude Sonnet. Alibaba ho zaměřuje především na programování a tzv. agentic coding, tedy scénáře, kde model neřeší jen jednotlivé dotazy, ale komplexnější úlohy v několika navazujících krocích.
Zajímavý je i plán postupného uvolnění slabších variant na platformách typu Hugging Face. Pokud se potvrdí příznivý poměr mezi výkonem a cenou, může jít o atraktivní alternativu pro vývojové týmy, které hledají moderní coding model bez úplné závislosti na amerických AI službách.
Nezávislé video s testem Qwen3.6-Plus
Zdroj: Qwen3.6-Plus.
8) GLM-5.1 – Z.ai
Model GLM-5.1 od Z.ai patří mezi nejzajímavější open source novinky poslední doby. Podle dostupných informací se výkonem přibližuje modelům typu Claude Opus a zároveň cílí i na náročnější scénáře spojené s agentním programováním.
Jeho hlavní výhodou je otevřenost a příznivější cena ve srovnání s komerčními modely nejvyšší třídy. Limitem naopak zůstává velikost a s ní spojené hardwarové nároky, které mohou komplikovat lokální nasazení.
Pro organizace s dostatečně výkonnou infrastrukturou však může jít o zajímavou cestu, jak získat špičkový model bez nutnosti spoléhat na uzavřená API řešení.
Zdroje: článek GLM-5.1, GLM-5.1 na Hugging Face.
9) Minimax 2.7 – Minimax
Model Minimax 2.7 představuje open source řešení s 229 miliardami parametrů, které dává smysl zejména jako výkonný interní model pro firmy. Výkonově se podle dostupných informací pohybuje kolem úrovně Claude Sonnet, zároveň ale nabízí výhodu plné kontroly nad nasazením bez nutnosti spoléhat výhradně na externí API služby.
Zajímavý je především tím, že i přes svou velikost začíná být reálně provozovatelný v interní infrastruktuře. Například konfigurace se dvěma kartami RTX PRO 6000 Blackwell nabízí celkem 192 GB VRAM. To otevírá prostor pro provoz při vyšší kvantizaci a práci s dlouhým kontextem.
Konkrétní parametry se samozřejmě liší podle implementace, ale právě tato kombinace výkonu a dostupnosti dělá z Minimaxu 2.7 atraktivní volbu pro firmy, které chtějí nasadit silnou AI přímo ve vlastním prostředí.
- Silný interní model– dává smysl tam, kde chcete výkonnou AI držet uvnitř vlastní infrastruktury.
- Velká kapacita VRAM– sestava s 2× RTX PRO 6000 Blackwell otevírá prostor i pro vyšší kvantizaci a dlouhý kontext.
- Vhodné pro podnikové nasazení– kombinuje vysoký výkon a reálnou provozovatelnost bez nutnosti stavět extrémní cluster.
Pokud chcete podobné modely testovat ve vlastní režii, podívejte se na AI GPU servery. Vyhnete se čekání na veřejné kapacity a máte jistotu, že výkon, VRAM i síť zůstávají pod Vaší kontrolou.
Zdroje: hlavní stránka Minimax 2.7, Minimax 2.7 na Hugging Face.
10) Intel Arc B70 Pro – Intel
Intel přichází s GPU Arc B70 Pro, které podle dosavadních informací zaujme především poměrem ceny, výkonu a velikosti paměti. Cena kolem 950 USD v kombinaci s 32 GB VRAM představuje v této kategorii velmi zajímavou nabídku, a to zejména pro lokální AI experimenty nebo menší firemní nasazení.
Slabší stránkou zatím zůstává softwarová podpora. Ovladače i kompatibilita s některými frameworky mají podle zkušeností mírné zpoždění. To může znamenat, že novější modely nebo inferenční postupy nebudou dostupné hned. Pokud se ale Intelu podaří tento náskok dohnat, může se Arc B70 Pro stát atraktivní alternativou k etablovaným GPU řešením.
Praktické testování sestavy se 4× Intel Arc B70 Pro
11) Bonsai 8B – PrismML
PrismML ukazuje na modelu Bonsai 8B velmi radikální přístup ke kompresi, kdy dochází k redukci až na 1bitovou reprezentaci. Podle dostupných informací tím model ztrácí zhruba 30 % svých schopností, zároveň je ale výrazně úspornější (zabírá přibližně čtrnáctkrát méně paměti a generování je až osmkrát rychlejší).
Praktické testování komprese Bonsai 8B
Jde tak o výrazný kompromis mezi kvalitou a efektivitou, který může mít v některých scénářích praktický přínos.
Samotnou technologii si firma zatím drží interně. Zároveň ale uvádí, že by ji bylo možné aplikovat i na další modely. Pokud se tento přístup osvědčí ve větším měřítku, může otevřít cestu k provozu AI i v prostředích s omezenými zdroji, případně tam, kde je důležitější rychlost než maximální přesnost. Pro specifické use casy by to mohlo znamenat dostupnější nasazení modelů i na méně výkonném hardwaru.
Zdroje: Bonsai 8B na Hugging Face, web PrismML.








