📊 Přehled provozu

Palubní deska firmy.

Jako palubní deska auta — víš kolik benzínu zbývá a jestli něco nehoří. U nás: fungují naše služby? Jsou rychlé? Klient si to může sám ověřit. A když něco padá — víme kde a proč, dřív než si toho klient všimne.

Konkrétně: 15 dashboardů v Grafaně (9 vlastních + 6 community), 13 z 13 scrape targetů aktivních, 30 dní retence logů, jediné místo, kam přicházejí logy + metriky z celého clusteru i z VPS mimo K8s.

⌬ Co to je

Vidíme všechno.

Každá služba (Portál, MCP server, databáze, Keycloak, …) průběžně posílá logy (co dělala) a metriky (jak rychle, kolikrát). Sbíráme to na jedno místo a kreslíme z toho grafy.

Výsledek: stačí otevřít Grafanu, vybrat dashboard a víš stav. Žádné „je to v pohodě?" v Slacku — vidíš to sám.

📈

Co se měří

🟢
Up / DownŽije Portál? Žije přihlašovák? Žije databáze? Žije MCP server?
⚡
Rychlost (latence)P50/P95/P99 — jak rychle odpovídá většina vs. pomalí klienti.
📜
Logy z 23 služebLoki — uchovávané 30 dní, full-text vyhledávání, structured filtering.
🐘
Postgres + Redis interní metrikypočet spojení, slow queries, replikační lag, hit rate cache.
🚨
AlertyKdyž něco překročí limit, dorazí pípnutí (Slack, e-mail).

✓ Komu to pomáhá

Tři role, tři pohledy.

⌨️

Vývojář

„Po nasazení mi něco padá." Otevře Grafanu, vidí přesně, který endpoint a kdy. Místo dvou hodin dolování má fix za 15 minut.

🎯

PM

Klient se ptá „jak spolehlivá je vaše platforma?" — otevřeš Grafanu a ukážeš grafy. Reálná data, ne slova. Důvěryhodnost se nedá nafouknout.

🚨

Support / oncall

„Někomu nejde Vaultwarden." Místo zkoušení „mně to jde" jeden pohled ukáže, jestli je to obecný problém nebo jen ten user.

🕐

Vidíš to dřív, než to uvidí klient

Když API začne zpomalovat, dashboard to ukáže okamžitě. Stihneš opravit, než si toho někdo všimne. Profesionální dojem zadarmo.

🔍

Žádné „já si myslím, že…"

Měření nahrazují dohady. Když někdo tvrdí „je to pomalé", podíváme se a víme, jestli je to pravda — a jestli je to 2× nebo 50× pomalejší.

🤖

AI to umí přečíst

Místo proklikávání 7 dashboardů se zeptáš Claude Code: „proč mi padá API X?" a AI sama prohledá metriky a logy. Kratší cesta od otázky k odpovědi.

📊

Pro sales i pro vedení

Máme reálná čísla. Ne „99 % tak nějak", ale konkrétní grafy uptime za poslední měsíc. Důvěryhodnost se nedá nafouknout.

⌬ Co je pod kapotou

LGTM stack.

Standardní open-source nástroje od Grafana Labs. Co se naučíš tady, potkáš ve velkých firmách.

📜

Loki — logy

Centrální úložiště logů (50 GiB, 30 dní retence). Promtail jako DaemonSet na všech K8s nodech + systemd binary na VPS mimo K8s. 5 z 6 VPS odesílá logy, jedna ještě v rolloutu.

📊

Grafana — vizualizace

15 dashboardů — 9 vlastních (postgres, redis, MCP server, workers, KC, Traefik, …) + 6 community templates. Přihlášení přes firemní účet (KC SSO).

🔥

Prometheus — metriky

13 z 13 scrape targetů aktivních — Postgres exporter, Redis exporter, MCP server /metrics, Keycloak management endpoint, node-exporter, kube-state-metrics, workers.

🤖

mcp-grafana — AI přístup

AI agent (Claude Code) umí číst dashboardy a logy přímo přes MCP. Místo proklikání 7 grafů se zeptáš „proč mi padá API?" a AI prohledá metriky a vrátí konkrétní příčinu.

„Měříme všechno, co běží. Ne proto, že je to cool, ale proto, že chceme vidět problém před klientem. A protože dohady o rychlosti a spolehlivosti nejsou důvěryhodné — čísla ano."

← Zpět

Portál

Pokračovat

Slack bot →