Palubní deska firmy.
Jako palubní deska auta — víš kolik benzínu zbývá a jestli něco nehoří. U nás: fungují naše služby? Jsou rychlé? Klient si to může sám ověřit. A když něco padá — víme kde a proč, dřív než si toho klient všimne.
Konkrétně: 15 dashboardů v Grafaně (9 vlastních + 6 community), 13 z 13 scrape targetů aktivních, 30 dní retence logů, jediné místo, kam přicházejí logy + metriky z celého clusteru i z VPS mimo K8s.
Vidíme všechno.
Každá služba (Portál, MCP server, databáze, Keycloak, …) průběžně posílá logy (co dělala) a metriky (jak rychle, kolikrát). Sbíráme to na jedno místo a kreslíme z toho grafy.
Výsledek: stačí otevřít Grafanu, vybrat dashboard a víš stav. Žádné „je to v pohodě?" v Slacku — vidíš to sám.
Co se měří
- 🟢Up / DownŽije Portál? Žije přihlašovák? Žije databáze? Žije MCP server?
- ⚡Rychlost (latence)P50/P95/P99 — jak rychle odpovídá většina vs. pomalí klienti.
- 📜Logy z 23 služebLoki — uchovávané 30 dní, full-text vyhledávání, structured filtering.
- 🐘Postgres + Redis interní metrikypočet spojení, slow queries, replikační lag, hit rate cache.
- 🚨AlertyKdyž něco překročí limit, dorazí pípnutí (Slack, e-mail).
Tři role, tři pohledy.
Vývojář
„Po nasazení mi něco padá." Otevře Grafanu, vidí přesně, který endpoint a kdy. Místo dvou hodin dolování má fix za 15 minut.
PM
Klient se ptá „jak spolehlivá je vaše platforma?" — otevřeš Grafanu a ukážeš grafy. Reálná data, ne slova. Důvěryhodnost se nedá nafouknout.
Support / oncall
„Někomu nejde Vaultwarden." Místo zkoušení „mně to jde" jeden pohled ukáže, jestli je to obecný problém nebo jen ten user.
Vidíš to dřív, než to uvidí klient
Když API začne zpomalovat, dashboard to ukáže okamžitě. Stihneš opravit, než si toho někdo všimne. Profesionální dojem zadarmo.
Žádné „já si myslím, že…"
Měření nahrazují dohady. Když někdo tvrdí „je to pomalé", podíváme se a víme, jestli je to pravda — a jestli je to 2× nebo 50× pomalejší.
AI to umí přečíst
Místo proklikávání 7 dashboardů se zeptáš Claude Code: „proč mi padá API X?" a AI sama prohledá metriky a logy. Kratší cesta od otázky k odpovědi.
Pro sales i pro vedení
Máme reálná čísla. Ne „99 % tak nějak", ale konkrétní grafy uptime za poslední měsíc. Důvěryhodnost se nedá nafouknout.
LGTM stack.
Standardní open-source nástroje od Grafana Labs. Co se naučíš tady, potkáš ve velkých firmách.
Loki — logy
Centrální úložiště logů (50 GiB, 30 dní retence). Promtail jako DaemonSet na všech K8s nodech + systemd binary na VPS mimo K8s. 5 z 6 VPS odesílá logy, jedna ještě v rolloutu.
Grafana — vizualizace
15 dashboardů — 9 vlastních (postgres, redis, MCP server, workers, KC, Traefik, …) + 6 community templates. Přihlášení přes firemní účet (KC SSO).
Prometheus — metriky
13 z 13 scrape targetů aktivních — Postgres exporter, Redis exporter, MCP server /metrics,
Keycloak management endpoint, node-exporter, kube-state-metrics, workers.
mcp-grafana — AI přístup
AI agent (Claude Code) umí číst dashboardy a logy přímo přes MCP. Místo proklikání 7 grafů se zeptáš „proč mi padá API?" a AI prohledá metriky a vrátí konkrétní příčinu.