Jak vybrat hardware pro provoz AI: GPU, paměť a úložiště

3. března 2026

•

Výkon AI aplikací dnes nestojí jen na tom, jak silnou GPU kartu nasadíte. O tom, jestli bude chatbot, RAG nebo inference služba skutečně fungovat rychle a spolehlivě, rozhoduje kombinace VRAM, operační paměti a úložiště, a také to, zda hardware odpovídá konkrétnímu scénáři použití. Ukážeme si, podle čeho vybírat GPU, RAM a NVMe pro provoz AI v praxi a kdy dává smysl sáhnout po hotových GPU serverech v cloudu.

1) Nejdřív si ujasněte, co přesně budete dělat

Než začnete vybírat konkrétní GPU, pojmenujte si scénář. Právě ten rozhoduje, co vás bude na hardwaru limitovat, píše web Unihost.

Inference (chatbot, API, asistent) – rozhoduje hlavně VRAM a počet paralelních dotazů, výkon GPU bývá méně důležitý než to, aby se model i kontext vešly do paměti.
Fine-tuning (LoRA/QLoRA) – roste nárok na VRAM, velmi důležité je rychlé NVMe (checkpointy) a dostatek RAM.
Trénink ve větším měřítku – typicky více GPU, klíčové je jejich propojení a škálování, nejde už jen o kartu, ale o celou infrastrukturu.
RAG a embeddingy – GPU může být menší, často vás bude brzdit spíš RAM a úložiště (indexy, cache, dokumenty).

Jiný hardware potřebujete pro provoz hotového modelu, jiný pro jeho doladění a úplně jiný pro trénink. Dokud si neřeknete, zda řešíte inference, RAG, fine-tuning nebo trénink, velmi snadno zvolíte špatnou konfiguraci.

2) GPU – co rozhoduje

Při výběru GPU pro AI se velmi často řeší jen výkon karty. V reálném provozu ale téměř vždy narazíte dříve na paměť GPU (VRAM) než na samotné výpočetní jednotky.

VRAM rozhoduje, jestli model vůbec spustíte – do VRAM se nevejdou jen váhy modelu, ale i kontext, pracovní paměť a data pro více dotazů. Reálná potřeba VRAM je proto vždy vyšší než jen velikost modelu na disku.
Dlouhý kontext a více uživatelů rychle zaplní paměť – u chatbotů a asistentů je VRAM velmi často limitována délkou kontextu a počtem současných uživatelů. GPU tak mívá ještě dost výkonu, ale už nemá prostor pro další kontexty. VRAM proto přímo určuje kapacitu celé AI služby.
Kvantizace pomáhá (hlavně pro inference) – pro provoz modelů se běžně používají 8bit a 4bit varianty, které výrazně snižují paměťové nároky. Typickým zdrojem postupů a nástrojů je platforma Hugging Face.
Nejde jen o výkon, ale o rychlost práce s pamětí – u větších modelů je výkon často omezen tím, jak rychle GPU pracuje s pamětí, nikoli počtem výpočetních jednotek. Dvě karty se stejným výkonem se proto mohou v AI úlohách chovat velmi odlišně.
Jedna GPU s větší VRAM je často lepší než více menších – v běžném firemním nasazení se většinou vyplatí jedna GPU s větší VRAM, jednodušší provoz a žádné dělení modelu mezi karty. Více GPU má smysl hlavně pro trénink a opravdu velké modely.

Pokud vybíráte GPU pro běžné firemní nasazení (chatbot, RAG, interní asistent, inference API), držte se jednoduchého pravidla – nejdříve spočítejte, kolik VRAM potřebuje váš model včetně kontextu a rezervy, teprve potom řešte hrubý výpočetní výkon.

Ve většině reálných projektů totiž neplatí, že by GPU nestíhala počítat. Nejčastěji narazíte právě na to, že se vám do paměti nevejde další uživatel, další kontext nebo větší model.

3) RAM (operační paměť) – často podceňovaný limit

Při návrhu AI infrastruktury se téměř vždy řeší GPU a její VRAM. Operační paměť (RAM) serveru se ale velmi často stává skrytým limitem, který se projeví až v reálném provozu – zpomalením, nestabilitou nebo nutností zbytečných kompromisů. RAM totiž v AI systémech neplní jen roli doprovodné paměti k GPU.

RAM obsluhuje všechno kolem modelu – zatímco GPU počítá model, v RAM běží načítání a příprava dat, práce s dokumenty u RAG, dočasná data při inferenci i tréninku a také celé aplikační zázemí (API, vektorová databáze, backend, monitoring). Jakmile RAM dojde, systém začne používat disk a výkon jde rychle dolů.
U RAG bývá RAM důležitější než GPU – samotný model může být malý, ale v RAM se drží vektorové indexy, metadata, cache dotazů a části dokumentů. V praxi proto často není problém GPU, ale právě nedostatek paměti pro práci s daty.
RAM pomáhá, když se model nevejde do VRAM – při offloadu z GPU do RAM aplikace sice běží, ale výrazně roste latence a kolísá výkon. RAM zde není náhrada za VRAM, ale jen nutná pojistka.
Při fine-tuningu a tréninku drží RAM data a průběh výpočtu – v paměti jsou batche dat, buffery a stav trénování. Pokud je RAM málo, zpomalí se celý trénovací proces – i když máte dostatečně silnou GPU a rychlé NVMe.

Z provozního pohledu se RAM vyplatí vnímat takto:

inference bez RAG – RAM je důležitá, ale většinou není hlavním limitem,
RAG a práce s dokumenty – RAM je velmi často klíčový zdroj,
fine-tuning a trénink – RAM je nutná pro plynulý chod datového řetězce.

GPU určuje, co dokážete spočítat. RAM ukazuje, jak plynule a stabilně celý AI systém funguje. Právě proto se v reálných projektech často vyplatí kombinace menší GPU + více RAM namísto silné GPU v poddimenzovaném serveru.

4) Úložiště – NVMe není luxus, ale prevence GPU idle

U AI infrastruktury se často řeší jen GPU a paměť. Přitom právě úložiště bývá důvodem, proč drahá GPU část času jen čeká. Pokud data a checkpointy nestíhá disk, GPU nemá co počítat.

Kdy vás začne brzdit disk místo GPU – disk je problém hlavně při načítání trénovacích dat, ukládání checkpointů, práci s velkými datasety a při RAG (čtení dokumentů a embeddingů). GPU má výkon i VRAM, ale čeká na data. Celý běh je I/O-bound. Na tento problém dlouhodobě upozorňuje komunita kolem PyTorch.
Proč je NVMe lepší než běžné SSD – má nižší latenci a zvládá více paralelních čtení a zápisů. To přesně odpovídá tomu, jak dnes pracují AI datové pipeline.
Trénink a fine-tuning bez NVMe – neustále se čtou batche a ukládají checkpointy. Pomalý disk znamená, že GPU čeká. I proto se výkon úložišť pro AI řeší samostatně například v rámci MLCommons.
RAG a firemní asistenti – často se sahá do vektorových databází, cache a dokumentů. Bez rychlého NVMe rychle roste odezva, i když samotná inference na GPU je rychlá.

Praktická zkratka:

inference bez RAG – NVMe není nutnost, ale pomůže při větších modelech a častém načítání,
RAG a práce s dokumenty – NVMe výrazně zlepšuje odezvu a stabilitu,
fine-tuning a trénink – NVMe je v praxi téměř nutnost.

GPU určuje, jak rychle dokážete počítat. NVMe určuje, jestli budete mít vůbec co počítat. Pokud je úložiště pomalé, nejvýkonnější GPU server se velmi snadno změní v drahé železo, které velkou část času jen čeká na data.

5) Praktické výběrové scénáře (rychlá orientace)

Níže je jednoduchá pomůcka, podle které si velmi rychle ověříte, jaký typ hardware dává smysl právě pro váš případ.

Firemní chatbot/RAG → důležitější je RAM a NVMe (indexy, dokumenty, cache), GPU často nebývá hlavní limit.
Inference pro více uživatelů (API, aplikace) → řešte hlavně VRAM (model + kontext + paralelní dotazy) a stabilní výkon GPU.
Fine-tuning (LoRA/QLoRA) → klíčová je VRAM a rychlé NVMe (checkpointy), plus dostatek RAM.
Trénink ve větším měřítku → více GPU, jejich propojení a celá datová pipeline (RAM, NVMe, síť).

6) Kde do toho zapadá ZonerCloud GPU

Pokud nechcete řešit nákup vlastního serveru, dostupnost GPU, chlazení, servis a dlouhodobé vytížení, dává v praxi smysl využít hotové GPU servery od ZonerCloudu.

Z pohledu výběru hardwaru je to výhodné hlavně v situaci, kdy si ještě ověřujete reálné nároky svého projektu. Typicky:

spouštíte první firemní RAG/chatbot,
testujete různé velikosti modelů a kvantizaci,
nebo plánujete fine-tuning, ale nevíte, jak velká VRAM a konfigurace vám bude stačit.

Praktickým přínosem je, že si velmi rychle ověříte, zda vám pro daný scénář stačí jedna GPU, nebo už potřebujete silnější konfiguraci, zároveň neinvestujete do vlastního hardware dříve, než skutečně znáte reálnou zátěž a chování aplikace, a celý provoz navíc běží v českém prostředí bez nutnosti řešit vlastní infrastrukturu a její správu.

ZonerCloud GPU tak slouží jako jednoduchý způsob, jak si v praxi ověřit správnou konfiguraci pro AI provoz, než se rozhodnete pro dlouhodobé řešení. A to zdarma.

7) Rychlý checklist před nákupem/objednávkou GPU serveru

Jak velký model poběží a v jaké přesnosti (FP16 vs 8-bit vs 4-bit)?
Jak dlouhý kontext a kolik paralelních uživatelů (KV cache / batching)?
Budu trénovat na více GPU? Pokud ano, jaké je propojení (NVLink vs jen PCIe)?
Mám rychlé úložiště pro dataset a checkpointy (NVMe)?
Mám plán na rizika a provozní řízení (logování, monitoring, bezpečnost, governance)? NIST AI RMF je rozumný rámec i pro „nezbláznit se“ v produkci.

Správná konfigurace je víc než jen výběr GPU

Výběr hardware pro AI dnes není o tom koupit co nejsilnější GPU, ale o tom správně sladit VRAM, RAM a úložiště s konkrétním scénářem – tedy zda provozujete chatbot a RAG, inference API, fine-tuning, nebo trénink. V praxi se nejčastěji neukáže problém ve výpočetním výkonu, ale v paměti, datové pipeline a práci s úložištěm.

Pokud si nejste jistí, jaká konfigurace je pro váš projekt skutečně potřeba, je rozumné začít na hotových GPU serverech od ZonerCloudu.

Umožní vám v reálném provozu ověřit, kolik VRAM, RAM a NVMe opravdu potřebujete pro váš model, kontext i počet uživatelů – bez nutnosti hned investovat do vlastního hardware. ZonerCloud GPU tak dobře zapadá jako praktický krok mezi prototypem a dlouhodobým produkčním nasazením.

Ať už zvolíte vlastní infrastrukturu nebo cloud, vyplatí se celý návrh opřít i o provozní a bezpečnostní rámce, například doporučení National Institute of Standards and Technology (NIST AI Risk Management Framework), aby se z AI projektu nestal jen technický experiment, ale dlouhodobě udržitelná a bezpečně provozovaná služba.

Předchozí článek Vývojářské nástroje (DevTools): praktický základ moderního webového vývoje