NVIDIA před časem představila platformu NIM a s ní i AI Blueprints – připravené pracovní postupy pro nasazení umělé inteligence. Usnadňují zprovoznění modelů pro AI i bez znalosti programování, lokálně či v cloudu. Na blueprintu, který propojuje Blender, ComfyUI a modely FLUX v nástroj, s nímž budete mít lepší kontrolu nad generováním obrázků pomocí AI, si celý postup vyzkoušíme a přiblížíme si, jak blueprinty fungují a jak se s nimi pracuje.
Upozornění: Tento článek mohl vzniknout díky finanční podpoře společnosti NVIDIA. Text vyjadřuje názory autora a vychází z našich poznatků a zkušeností. Sponzor nezasahoval do jeho obsahu.
NVIDIA nedávno představila mikroslužby NIM (Nvidia Inference Microservices) spolu s předem připravenými ukázkovými „plánky“ pro AI – AI Blueprints.
Mikroslužby NIM a AI Blueprints mají zjednodušit zprovoznění modelů generativní umělé inteligence na čipech RTX. Díky nim můžete na kartách Nvidie snadněji i bez detailních znalostí zprovoznit modely a pracovní postupy pro AI v cloudu i lokálně. Umožní zvolit si službu nebo šablonu, nainstalovat ji na svůj počítač a začít experimentovat.
S využitím generativní AI můžete vytvářet NIM pro vlastní aplikace využívající umělou inteligenci, aniž byste uměli programovat. Pomohou vám s tím nové nástroje s nízkou či žádnou potřebou kódování jako AnythingLLM, ComfyUI, Langflow nebo LM Studio, s nimiž lze vytvářet i složité pracovní postupy pro AI, s nimiž uživatel komunikuje prostřednictvím jednoduchého grafického rozhraní. Když tato rozhraní propojíte přes mikroslužby NIM, snadno získáte přístup k aktuálním generativním modelům a můžete je v krátkém čase nasadit.
AI Blueprints jako vzor pro vlastní řešení
Na bázi mikroslužeb NIM fungují i NVIDIA AI Blueprints. Jde o jakési referenční, předem připravené ukázkové pracovní postupy, které můžete využít jako vzor pro vlastní nástroje (napřiklad pro vytvoření digitální postavy, tvorbu obsahu a podobně). Stačí je jen podle potřeby upravit a hned používat, nebo na základě nich rychleji připravit vlastní.
Základem generativní AI jsou takzvané foundation models – neuronové sítě natrénované na obrovském množství surových dat. NVIDIA pro počítače RTX AI připravila sadu mikroslužeb NIM, které umějí pracovat například s modely společností Black Forest Labs, Meta, Mistral nebo Stability AI. S nimi lze využívat vše od velkých jazykových modelů přes modely pro práci s textem a obrazem či generování obrázků a rozpoznávání řeči. Využít lze i modely pro embedding RAG (retrieval-augmented generation), díky nimž může AI odpovídat přesněji, protože do odpovědí doplní i relevantní informace z externích zdrojů. Nebo například modely pro extrakci dat z PDF nebo úlohy počítačového vidění a další. NIM mohou využívat i otevřené modely Nvidie z rodiny Nemotron, které slouží pro práci s agenty, což jsou AI asistenti, kteří samostatně řeší zadané úkoly, analyzují je, provedou potřebné akce a na základě jejich vyhodnocení buď pracují dál, nebo předají výsledek.
Přehled aktuálně dostupných AI Blueprintů, které můžete vyzkoušet, nebo si je vzít za vzor při tvorbě vlastních, je na stránkách build.nvidia.com. Samotné Blueprinty a jejich repozitáře jsou pak na GitHubu v NVIDIA AI Blueprints.
Všechno v jednom balení
Mikroslužby NIM obsahují vše potřebné pro provoz AI na počítačích s grafickými čipy Nvidie, na pracovních stanicích nebo v cloudu. Lze je snadno stáhnout, nastavit a spouštět na počítačích se systémem Windows 11 a WSL (Windows Subsystem for Linux, subsystém ve Windows, v němž lze provozovat linuxové jádro, nástroje i aplikace).
K dispozici jsou i AI Blueprinty, které lze provozovat lokálně. Většina z nich je připravená pro podniková řešení a jeden či více profesionálních akcelerátorů, najdete mezi nimi ale i ukázkové postupy, na něž stačí i lépe vybavené PC s herní grafickou kartou GeForce RTX.
Jak se s nimi pracuje v praxi, si ukážeme v následujících kapitolách na jednom z těch méně náročných AI Blueprintů, se kterým si mohou majitelé lépe vybavených PC i doma.
Obrázky podle scény, kterou vytvoříte
Pokud jste si už někdy hráli s generováním obrázků, už jste nejspíš narazili na to, že je těžké ovlivnit kompozici scény, aby v ní bylo vše tak, jak si představujete. Někdy je téměř nemožné mít na obrázku vše tak, jak byste to chtěli mít jen zadáváním textového promptu. Čím detailněji scénu popíšete, tím více toho model při generování ignoruje. Aktuální modely mají problém přesně dodržet, co má být kde umístěné, co má být kam otočené, kdo má co dělat, kde ležet, kdo má sedět, kdo stát, kdo letět, nebo co má být uvnitř něčeho jiného a co venku.
Tento problém řeší jeden z AI blueprintů nazvaný „3D Guided Generative AI“, díky němuž můžete předem ve 3D navrhnout scénu, ve které model následně nahradí makety objektů prvky generovanými pomocí AI.

⠀






No, už jen zřídit multimodálního agenta nad celou platformou, který sám zvolí sadu odpovídající úkolu a vše zařídí na základě obecného uživatelského vstupu.
Na snímcích, co se vyznačují více detaily (okrasné prvky fasád, zábradlí), nebo jemnými texturami (jako mají například tkaniny) se zatím hodně podepisují ty upscalovací mezikroky, jako doslova probublávají. Pořád je to myslím nástroj spíše pro ty pixarovské (ghibliovské) obrázky. A teda pokud přežijete ten všudypřítomný nános kýče, ale možná to tak vnímám jenom já?
Je to povětšinou jak artworky z her. Otázka je, do jaké míry je to věc promptu a do jaké toho, na jakých datech se to trénuje.
Třeba ta podmořská scéna na druhém obrázku v poslední kapitole vypadá fotorealističtěji, ale promptem se mi nepovedlo dokopat ho k tomu, aby to nasvětlil jen jedním bodovým kuželem světla. Ještě víc jsem zíral na to, že mi na fontánu pod vodou pořád cpal tekoucí vodu.