Slova, která rozhodují o tom, jestli váš agent selže

Průmysloví inženýři AI agentů selhávají na základních benchmarcích pod padesát procent. A přitom řeší problémy, kde na pojmenování záleží víc než na modelu samotném.

Slova, která rozhodují o tom, jestli váš agent selže

Frontier modely od OpenAI, Anthropic a Google — ty, za které firmy platí tisíce dolarů měsíčně — skórovaly v novém benchmarku ITBench-AA průměrně pod 50 %. Benchmark vytvořily Artificial Analysis a IBM společně, a testuje agenty na reálných enterprise IT úlohách: správa ticketů, automatizace procesů, síťová diagnostika.

Výsledek není překvapivý pro nikoho, kdo pracuje v oboru. Ale pro manažery, kteří investují do AI automatizace, je to studená sprcha. Přitom část problému není v modelech samotných — je v tom, jak jsou agenti navrženi, nazváni a zasazeni do systémů.

Když Blue Origin minule crashnul New Glenn, problém nebyl v raketovém motoru. Byl v systému, který motor obklopoval. Stejná logika platí pro AI agenty.

Harness: není to framework, není to wrapper

Slovo "harness" se v AI komunitě používá přinejmenším třemi různými způsoby, a každý myslí něco jiného.

V kontextu testování (EleutherAI's lm-evaluation-harness, Hugging Face Open LLM Leaderboard) je harness testovací infrastruktura — systém, který bere model, pouští ho přes sadu benchmarků a vrací skóre. To je harness jako sedlo na koni: držíte pod kontrolou, co model dělá.

V kontextu agentních systémů — Claude Code, AutoGPT, LangChain agents — je harness runtime prostředí. Harness je to, co spravuje kontext, volání nástrojů, chybové stavy, opakování, logování. Není to framework (to je vyšší abstrakce), není to wrapper (to je tenká vrstva), je to celý systém životní podpory agenta.

Třetí použití je nejvolnější: "harness" jako synonymum pro "boilerplate setup kód". Tady terminologie zcela selhává.

Proč na tom záleží prakticky? Protože pokud váš tým volá harness a scaffold zaměnitelně, skončíte s architekturou, kde nikdo neví, co je odpovědné za retry logiku, za memory management, nebo za obsluhu tool call chyb. A přesně to způsobuje, že agenti selhávají na úlohách, které model teoreticky zvládne.

Prakticky: EleutherAI lm-evaluation-harness je open-source, zdarma, instalace přes `pip install lm-eval`. Pokud chcete lokálně testovat model z HuggingFace, tohle je váš výchozí bod.

Scaffold: lešení, ne nosná zeď

Scaffold je dočasná struktura. Lešení při stavbě budovy slouží pro přístup — jakmile je stavba hotová, lešení odstraníte. V AI agentním vývoji je scaffold systém promptů, nástrojů a instrukčních vrstev, které agentovi říkají, jak přemýšlet, jak volat nástroje, jak reportovat výsledky.

Klíčový rozdíl od harnessu: harness je infrastruktura (běhový systém), scaffold je epistemická struktura (jak agent ví, co dělat).

Příklad z praxe: když spustíte Claude Code nebo GitHub Copilot Workspace, harness je ten kus kódu, který spravuje API volání, ukládá kontext, reaguje na tool results. Scaffold je systémový prompt — instrukce jako "jsi softwarový inženýr, máš k dispozici tyto nástroje, odpovídej ve formátu X".

Problém nastává, když scaffold přeroste v nosnou zeď. Vidíte to u projektů, kde 80 % tokenů v každém volání tvoří systémový prompt — stovky řádků instrukcí. Model pak bojuje s tím, co je instrukce a co je aktuální kontext úlohy. ITBench-AA výsledky naznačují přesně tenhle pattern: agenti selhávali nikoli proto, že by model neznal odpověď, ale proto, že scaffold byl tak složitý, že agent ztratil orientaci.

Praktické pravidlo: scaffold by měl jít odstranit. Pokud váš agent přestane fungovat bez 500 řádků systémového promptu, máte architektonický problém, ne problém s modelem.

Open-source alternativy pro stavbu scaffoldu: DSPy (Stanford, kompiluje prompty automaticky), Guidance (Microsoft, strukturované generování), nebo jednoduše plain Python s Ollama lokálně. Ollama + llama3.2:3b na staré RTX 3060 = přibližně 15 000 Kč za hardware, 0 Kč měsíčně za provoz.

Blue Origin, NVIDIA Cosmos a fyzická AI, která potřebuje jiný jazyk

New Glenn se nepovedl ve druhém stupni — separace selhala. Přesný technický detail není veřejně znám, ale analogie s AI agenty je přímočará: systém, který funguje v každé izolované části, může selhat na rozhraních. Harness a scaffold jsou právě tato rozhraní.

NVIDIA Cosmos 3 přichází v jiném kontextu, ale s podobnou lekcí. Cosmos je první open omni-model pro physical AI — tedy AI, která rozumí fyzickému světu a může plánovat akce v něm. Robotika, autonomní vozidla, průmyslová automatizace. Model je open-weight, dostupný přes HuggingFace, a NVIDIA ho staví jako základ pro fyzické agentní systémy.

Co je na Cosmos zajímavé z terminologického pohledu: NVIDIA explicitně rozlišuje mezi world model (model, který rozumí fyzice a kauzalitě) a action model (model, který plánuje akce). To je precizní terminologie — a přesně takovou preciznost postrádá většina diskuzí o softwarových agentech.

Physical AI potřebuje ještě přísnější terminologii než software agenti, protože chyby mají fyzické důsledky. Pokud robot špatně pochopí, co je "harness" (v doslovném smyslu — postroj, bezpečnostní systém), může to skončit úrazem. Přeneseno do softwaru: pokud váš tým nemá sdílenou definici harnessu, agent selže v produkci způsobem, který nikdo nečekal.

Cosmos 3 je k dispozici v několika variantách — od 7B do 14B parametrů. Na lokálním Ollama to vyžaduje minimálně 24 GB VRAM (RTX 4090 nebo A100), cena A100 na spotovém trhu AWS je přibližně 3-4 USD/hodinu. Pro enterprise testování reálná volba, pro hobby projekt nikoli.

ITBench-AA: proč 50 % nestačí a co s tím

Benchmark ITBench-AA obsahuje úlohy jako: "Zákazník hlásí, že nemůže přistoupit k sdílené složce. Diagnostikuj a vyřeš problém." Agent musí volat nástroje, interpretovat výsledky, iterovat. Přesně to, co enterprise IT oddělení dělají stovkykrát denně.

Výsledky: GPT-4o dosáhl přibližně 42 %, Claude 3.5 Sonnet přibližně 45 %, Gemini 1.5 Pro přibližně 38 %. Žádný model nepřekročil 50 %. To jsou čísla z dubna 2026 — novější modely (Claude 4, GPT-4.5) dosahují o něco lépe, ale stále ne dramaticky.

Co benchmark odhaluje: modely selhávají zejména na multi-step úlohách s neúplnými informacemi. Agent musí rozpoznat, že mu chybí informace, aktivně je dohledat, a pak teprve jednat. To je přesně situace, kde špatně navržený scaffold způsobuje selhání — agent buď hallucinate chybějící data, nebo se zasekne v retry smyčce.

Praktická implikace: pokud nasazujete agenta pro IT automatizaci, nepočítejte s tím, že "nejlepší model" bude stačit. Potřebujete:

Explicitní scaffold pro "nevím" stavy — agent musí vědět, kdy eskalovat
Harness s retry logikou a timeouty (doporučuji max 3 pokusy, pak human handoff)
Logging na úrovni tool callů, ne jen na úrovni konverzace

Open-source stack pro tohle: LangGraph (stavový automat pro agenty), Prefect nebo Temporal pro orchestraci, Ollama pro lokální model. Celkové náklady na lokální setup: 20 000–50 000 Kč za hardware, poté provoz zdarma. Cloud alternativa (Azure AI, AWS Bedrock): 0.50–2 USD za hodinu agentního provozu v závislosti na modelu.

Více o praktickém nasazení agentních systémů v energetice najdete na ElectricShare.cz — tam se tématu fyzických AI systémů v průmyslu věnují pravidelně.

Jak to správně pojmenovat a nastavit: checklist pro váš tým

Terminologická shoda v týmu není akademická záležitost. Je to inženýrský požadavek. Tady je minimální slovník, na kterém by se měl tým shodnout:

Harness: runtime systém, který spravuje životní cyklus agenta — kontext, nástroje, chyby, logování. Harness je odpovědný za to, aby agent nevyhodit výjimku, která shoří celý pipeline.

Scaffold: instrukční vrstva — systémový prompt, few-shot příklady, definice nástrojů. Scaffold definuje, co agent ví a jak přemýšlí. Měl by být verzovaný stejně jako kód.

Orchestrátor: systém, který koordinuje více agentů nebo více kroků. Orchestrátor je nadřazený harnessu. Příklady: LangGraph, CrewAI, AutoGen.

World model: interní reprezentace prostředí, ve kterém agent operuje. Pro software agenty je to obvykle implicitní (model zná kód, dokumentaci, stav systému). Pro fyzické AI (Cosmos) je explicitní.

Checklist pro nasazení: - Máte definovaný harness s explicit timeouty? (doporučuji 30s per tool call, 5min per agent run) - Je scaffold verzovaný v gitu? (ano, systémový prompt patří do repozitáře) - Máte logging na úrovni tool callů? (kritické pro debugging) - Máte human-in-the-loop pro stav "agent neví"? (pro enterprise IT nutnost) - Testujete na reálných úlohách, ne jen na syntetických benchmarcích?

Pokud vás toto téma zajímá v kontextu průmyslové energetiky a automatizace, ShareElectric.cz pravidelně pokrývá nasazení AI agentů v oblasti FVE, bateriových systémů a obchodování s elektřinou.

A pokud řešíte, jak AI automatizaci propojit s reálnou energetickou flexibilitou — bateriové systémy BESS 50–250 kW, day trading elektřiny, obchodování odchylek nebo regulační elektřina — SmartEnergyShare.com je místo, kde tohle spojení existuje v produkci, nikoli jen v teorii.

Předpověď, která nikoho nepotěší

Do konce roku 2026 uvidíme první větší enterprise incident způsobený špatně navrstveným agentem — ne špatným modelem, ale systémem, kde nikdo nevěděl, co je harness a co je scaffold. Bude to ve finančním sektoru nebo v IT automatizaci, a post-mortem zpráva bude obsahovat větu: "terminologie nebyla napříč týmem jednotná."

Blue Origin to ví. NVIDIA to ví — proto Cosmos explicitně rozlišuje world model od action model. Artificial Analysis a IBM to měří v ITBench-AA.

Zbytek průmyslu zatím stále věří, že stačí vzít nejlepší model a napsat dostatečně dlouhý systémový prompt.

Zdroje

Obchodujete s batteriovými úložišti nebo hledáte partnera pro flexibilitu a day trading elektřiny? SmartEnergyShare nabízí kompletní řešení pro BESS projekty od 50 do 250 kW - obchodování odchylek, regulační elektřiny a intraday trading. Zjistěte víc na SmartEnergyShare.

Další články na toto téma najdete na: SdileniEnergie.info - komunitní energetika Share-Electric.cz - praktické návody a kalkulace