Monitoring vs logy: čo riešia a prečo jedno bez druhého zlyháva

Monitoring a logy sa často zamieňajú. V návrhu infra odpovedajú na iné otázky: monitoring = čo sa deje, logy = prečo sa to deje.

Monitoring odpovedá že je problém a aký má dopad. Logy odpovedajú prečo problém vznikol. Spoľahlivá infra potrebuje oboje – s jasným vlastníkom, procesom a minimálnym štandardom.

Otázky, ktoré si treba zodpovedať

  • Čo je pre nás kritická služba a čo je len „nice-to-have“?
  • Kto reaguje na alert a aký je očakávaný čas reakcie?
  • Čo je incident vs čo je len informácia?
  • Máme runbook alebo aspoň základný postup na triage?
  • Vieme z logov rýchlo dokázať príčinu (a nie len vidieť symptóm)?

Najčastejšia chyba je mať „veľa dát“ bez kontextu. To generuje šum a paniku pri incidente.

Dobrý návrh infra stanoví minimálny set metrík, alertov a logov, ktoré sú actionable – vedú ku konkrétnej akcii.

Ak začínaš, je lepšie mať málo alertov, ktoré naozaj riešiš, než stovky, ktoré ignoruješ.

Súvisiace: