Monitoring infra: čo si premyslieť pred návrhom
Monitoring má hodnotu vtedy, keď je jasné čo je kritické, aký je cieľ dostupnosti a kto a ako reaguje. Inak sa z neho stane zdroj šumu a zbytočných zásahov.
Monitoring má zmysel iba vtedy, keď je jasné čo je kritické, aký je dopad a kto reaguje.
Minimum je definovať SLO, vlastníka alertov, eskalácie a runbook pre triage.
Inak vzniká alert spam, únava tímu a dlhší čas obnovy (MTTR).
Kľúčové otázky
- Kritické služby: ktoré služby sú pre biznis najdôležitejšie a aký dopad má ich výpadok?
- Ciele (SLO/SLA): aké sú očakávania dostupnosti a reakčných časov?
- Reakcia a eskalácia: kto rieši alerty, v akom čase a aká je eskalačná cesta?
- Runbook: existuje minimálny postup pre triage (prvé kroky, overenia, komu odovzdať)?
- Čo monitorujeme: službu (end-to-end) vs. hosty (CPU/RAM/disk) – čo je pre vás relevantné?
- Redukcia šumu: severity, deduplikácia, závislosti, „tiché hodiny“, údržbové okná.
Praktický prístup
Začnite malým počtom alertov pre kritické služby a infra komponenty, ktoré viete reálne obslúžiť. Rozširujte až vtedy, keď máte procesy a spätnú väzbu (čo bolo užitočné vs. čo bol šum).
Monitoring bez runbooku je len upozornenie — nie schopnosť incident vyriešiť konzistentne.