Tenhle open-source nástroj přečte stovky EV faktur za minutu. Azure za to bere tisíce korun měsíčně.

Operátor sítě nabíjecích stanic v Německu nedávno spočítal, že jeho tým tráví přibližně 40 hodin měsíčně ručním přepisováním dat z papírových instalačních protokolů, certifikátů a faktur od dodavatelů. Čtyřicet hodin. To jsou zhruba 25 000 Kč v mzdových nákladech — a to jen na datový vstup. Přitom řešení existuje, je open-source a od minulého roku umí zapřáhnout plnou sílu moderních jazykových modelů přes Transformers backend. Jmenuje se PaddleOCR 3.5 a stojí nula korun.

Zatímco svět sleduje, jak humanoidní roboti od Figure AI skládají balíčky ve skladech Amazonu, a Írán vyhrožuje, že začne vybírat mýtné za podmořské internetové kabely skrz Hormuzský průliv, tichá revoluce v rozpoznávání dokumentů probíhá klidně na vašem lokálním serveru. Bez cloudu, bez API klíčů, bez GDPR problémů.

Co přinesla verze 3.5 a proč je Transformers backend zásadní změna

PaddleOCR je projekt čínské společnosti Baidu, který běží pod Apache 2.0 licencí a na GitHubu nasbíral přes 45 000 hvězdiček. Verze 3.5 přinesla zásadní architektonickou změnu: vedle původního PP-OCRv5 enginu (postaveného na PaddlePaddle frameworku) teď existuje plnohodnotný Transformers backend.

Co to konkrétně znamená? PaddleOCR dříve vyžadoval instalaci celého PaddlePaddle ekosystému — vlastní framework od Baidu, který byl v praxi obtížné integrovat do projektů stavěných na PyTorchi nebo HuggingFace pipelines. S verzí 3.5 můžete spustit OCR přímo přes standardní `transformers` knihovnu, modely načítat z HuggingFace Hub a celou věc zapojit do existujícího ML projektu bez přepisování závislostí.

Konkrétní přínos: PP-OCRv5 model dosahuje přesnosti 86,6 % na komplexních vícejazyčných dokumentech (testováno na benchmarku OCRBench). Pro srovnání — Tesseract 5.x se pohybuje kolem 68–72 % na podobných sadách dat, zejména pokud dokument obsahuje tabulky nebo nestandartní layouty. Azure AI Vision toho dosahuje srovnatelných nebo lepších výsledků, ale za cenu zhruba 1,50 USD za 1 000 stránek — což při zpracování desetitisíců faktur měsíčně znamená nezanedbatelné náklady.

Instalace a první spuštění: od nuly k fungujícímu OCR za 10 minut

Instalace je přímočará, pokud máte Python 3.8+ a ideálně CUDA-kompatibilní GPU. Na CPU to taky jede, jen pomaleji.

```bash pip install paddleocr paddlepaddle # Pro GPU verzi: pip install paddlepaddle-gpu ```

Pro Transformers backend:

```bash pip install paddleocr[transformers] # nebo přímo z HuggingFace: pip install transformers torch paddleocr ```

Základní použití v Pythonu:

```python from paddleocr import PaddleOCR

ocr = PaddleOCR(use_angle_cls=True, lang='en', use_gpu=True) result = ocr.ocr('faktura_chargepoint.pdf', cls=True)

for line in result[0]: print(line[1][0]) # text print(f"Confidence: {line[1][1]:.2%}") ```

Výstup je strukturovaný seznam s bounding boxy, textem a confidence score. Na běžné faktuře z nabíjecí stanice (A4 PDF, tisková kvalita) trvá zpracování na RTX 3060 přibližně 0,8 sekundy. Na CPU (Intel i5 12. generace) kolem 4–6 sekund. Pro dávkové zpracování přes noc je CPU varianta naprosto dostačující.

Transformers backend nabízí alternativní inicializaci, která ocení každý, kdo pracuje s HuggingFace ekosystémem:

```python from paddleocr import PaddleOCR

ocr = PaddleOCR( use_doc_orientation_classify=True, use_doc_unwarping=True, use_textline_orientation=True, backend="transformers" ) ```

Parametr `use_doc_unwarping` je nová věc ve 3.5 — automaticky opravuje perspektivní zkreslení, takže fotka faktury pořízená na telefon pod úhlem projde předzpracováním a OCR z ní vytáhne čitelný text bez nutnosti manuálního narovnání.

Document Layout Analysis: když potřebujete víc než jen text

Samotné rozpoznání textu je jen polovina příběhu. V energetickém sektoru pracujete s dokumenty, kde záleží na struktuře — tabulky spotřeby, kolonky s daty, oddíly smluv. PaddleOCR 3.5 přidalo nový modul `PPStructureV3`, který provádí Document Layout Analysis — rozdělí dokument na oblasti (nadpis, odstavec, tabulka, obrázek) a každou zpracuje jinak.

```python from paddleocr import PPStructureV3

pipeline = PPStructureV3( use_doc_orientation_classify=True, use_doc_unwarping=True )

output = pipeline.predict( input="smlouva_o_dodavce_energie.pdf", save_path="./output_structured" ) ```

Výstup obsahuje JSON s hierarchií dokumentu. Tabulky jsou exportovány jako HTML nebo Markdown, což se hodí pro následné zpracování. V praxi to vypadá tak, že z měsíčního výkazu spotřeby nabíjecí stanice dostanete strukturovaný slovník s klíči jako `date`, `kwh_delivered`, `session_count` — bez psaní regulárních výrazů na míru každému formátu.

Přesnost na tabulkách je kolem 82 % podle interních benchmarků Baidu. Na jednoduchých fakturách s jasnou strukturou je to výrazně víc, na skomplikovaných vícestránkových přílohách smluv může klesnout. Dobrá zpráva: confidence score u každého pole vám řekne, kde ověřit výsledek ručně.

Jak to využít v praxi pro elektromobilitu a energetiku

Konkrétní use case pro operátory nabíjecích stanic nebo správce firemních flotil elektromobilů:

Automatizace fakturace nabíjení: Různí operátoři (ČEZ ESCO, E.ON Drive, Ionity, Shell Recharge) vydávají faktury v různých formátech. PaddleOCR + PPStructureV3 umí extrahovat klíčová data (datum, kWh, cena/kWh, celková částka, identifikátor stanice) a uložit je do databáze pro další analýzu.

Zpracování certifikátů a homologací: EV nabíječky podléhají certifikaci (CE, EAC, TÜV). Skeny certifikátů přicházejí jako PDF nebo JPEG — OCR pipeline je dokáže zpracovat a ověřit klíčové parametry automaticky.

**Parsing smluv o sdílení energie**: Pokud obchodujete s flexibilitou přes platformu SmartEnergyShare, pracujete s dokumenty popisujícími podmínky sdílení, výkupní ceny a harmonogramy. Automatizované OCR z těchto dokumentů dokáže extrahovat smluvní parametry a předat je do obchodního systému.

BESS dokumentace: Bateriová úložiště v rozsahu 50–250 kW přicházejí s obsáhlou technickou dokumentací — SOH reporty, warranty certifikáty, commissioning protokoly. Zpracování stovek stránek ručně je nereálné. Více o integraci BESS systémů s automatizovanou dokumentací píšeme na BESS Global Blog.

Celý pipeline od PDF po strukturovaný JSON lze zprovoznit jako mikroslužbu s FastAPI:

```python from fastapi import FastAPI, UploadFile from paddleocr import PPStructureV3 import tempfile, os

app = FastAPI() pipeline = PPStructureV3(use_doc_unwarping=True)

@app.post("/parse-document") async def parse_document(file: UploadFile): with tempfile.NamedTemporaryFile(suffix=".pdf", delete=False) as tmp: tmp.write(await file.read()) tmp_path = tmp.name result = pipeline.predict(tmp_path) os.unlink(tmp_path) return {"status": "ok", "data": result} ```

Na serveru s 8 GB RAM a bez GPU zvládne tato služba zpracovat přibližně 200–300 stránek za hodinu. Pro větší objem doporučuji přidat GPU nebo rozložit zpracování do fronty (Celery + Redis).

Srovnání s alternativami: kdy PaddleOCR nestačí

Buďme upřímní. PaddleOCR není řešení na všechno.

Tesseract 5.x je starší a méně přesný na složitých dokumentech, ale jeho integrace je triviální a komunita obrovská. Pro jednoduché faktury s jasnou sazbou a bez tabulek je Tesseract dostačující a výrazně lehčí na závislosti.

Azure AI Document Intelligence (dříve Form Recognizer) je komerční řešení s přesností kolem 94–97 % na standardizovaných formulářích. Cena začíná na 1,50 USD za 1 000 stránek, předtrénované modely na faktury a daňové doklady jsou připravené k použití. Pokud zpracováváte méně než 10 000 stránek měsíčně a nechcete řešit infrastrukturu, Azure vyjde levněji než mzda vývojáře na integraci PaddleOCR.

AWS Textract funguje podobně — předtrénované modely, pay-per-use, snadná integrace s dalšími AWS službami. Cena 1,50 USD za 1 000 stránek pro základní OCR, 15 USD za 1 000 stránek pro extrakci formulářů a tabulek.

Kdy PaddleOCR vítězí: velké objemy (10 000+ stránek měsíčně), GDPR požadavky na lokální zpracování, vícejazyčné dokumenty (čeština, slovenština, němčina — PaddleOCR má solidní podporu), nestandardní dokumenty kde předtrénované komerční modely selhávají.

Pro projekty v oblasti inteligentního sdílení energie a smart gridu, kde zpracování probíhá s citlivými kontraktními daty, je lokální nasazení PaddleOCR výrazná GDPR výhoda. Podrobněji o práci s daty v smart grid kontextu píšeme na SmartEnergyShare.info.

Hardware a reálné náklady nasazení

Minimální konfigurace pro produkční nasazení:

CPU-only: 4 jádra, 8 GB RAM — zvládne ~150 stránek/hodinu
GPU (doporučeno): NVIDIA RTX 3060 (8 GB VRAM) — ~2 000 stránek/hodinu
Server GPU: A10G (24 GB VRAM) — ~15 000 stránek/hodinu

Cena serveru s RTX 3060 na Hetzner Cloud (GPU dedicated): přibližně 0,90 EUR/hodinu, tedy asi 650 Kč za 24 hodin. Pokud zpracování spouštíte v dávkách přes noc, reálná měsíční cena se může pohybovat kolem 2 000–5 000 Kč — výrazně méně než komerční API pro srovnatelný objem.

Modely jsou dostupné přímo z HuggingFace Hub a při prvním spuštění se stahují automaticky. Celková velikost PP-OCRv5 modelů je přibližně 900 MB, což je rozumné i pro edge nasazení na výkonnějším průmyslovém hardware.

Závěr: budoucnost je lokální

Trend je jasný. Stejně jako humanoidní roboti od Figure AI začínají nahrazovat manuální práci ve skladech, automatizované OCR pipelines nahrazují datový vstup v kancelářích. Rozdíl je v tom, že robot od Figure stojí statisíce dolarů — PaddleOCR je zdarma a běží na serveru za pár set korun měsíčně.

Pro operátory nabíjecí infrastruktury, správce BESS úložišť nebo obchodníky s energií přes platformy jako SmartEnergyShare to konkrétně znamená: automatizujte zpracování dokumentů teď, dokud to vaše konkurence ještě řeší ručně. Čtyřicet hodin měsíčně ušetřených na datovém vstupu je 40 hodin, které lze věnovat analýze a obchodním rozhodnutím.

PaddleOCR 3.5 s Transformers backendem je zralé, dobře zdokumentované řešení. Nejsou v něm žádné skryté háčky — jen trochu práce na integraci, která se vrátí během prvního měsíce provozu.