Monitoring vs logy: čo riešia a prečo jedno bez druhého zlyháva
Monitoring a logy sa často zamieňajú. V návrhu infra odpovedajú na iné otázky: monitoring = čo sa deje, logy = prečo sa to deje.
Monitoring odpovedá že je problém a aký má dopad.
Logy odpovedajú prečo problém vznikol.
Spoľahlivá infra potrebuje oboje – s jasným vlastníkom, procesom a minimálnym štandardom.
Otázky, ktoré si treba zodpovedať
- Čo je pre nás kritická služba a čo je len „nice-to-have“?
- Kto reaguje na alert a aký je očakávaný čas reakcie?
- Čo je incident vs čo je len informácia?
- Máme runbook alebo aspoň základný postup na triage?
- Vieme z logov rýchlo dokázať príčinu (a nie len vidieť symptóm)?
Najčastejšia chyba je mať „veľa dát“ bez kontextu. To generuje šum a paniku pri incidente.
Dobrý návrh infra stanoví minimálny set metrík, alertov a logov, ktoré sú actionable – vedú ku konkrétnej akcii.
Ak začínaš, je lepšie mať málo alertov, ktoré naozaj riešiš, než stovky, ktoré ignoruješ.
Súvisiace: