Dokumentácia & runbooky: minimum pre prevádzkovateľnú infra

Dokumentácia a runbooky nie sú „papierovanie“. Sú to artefakty, ktoré umožňujú stabilnú prevádzku, auditovateľné zmeny a znižujú závislosť od jednotlivcov. Ak je knowledge iba „v hlave“, riziko incidentu aj čas obnovy rastú.

Dokumentácia a runbooky znižujú riziko „bus factor“ a skracujú incidenty. Cieľ nie je byrokracia – cieľ je rýchla orientácia, jasné rozhodnutia a opakovateľné postupy (triage → akcia → rollback → eskalácia).

Otázky, ktoré si treba zodpovedať

  • Kde je „zdroj pravdy“ (repo/wiki/CMDB) a kto je zaň zodpovedný?
  • Máme runbooky pre incidenty, zmeny a obnovu (RTO/RPO scenáre)?
  • Je onboarding nového človeka možný bez dlhého shadowingu (a bez rizika)?
  • Sú konfigurácie a postupy verziované (history, review, rollback)?
  • Je dokumentácia udržiavaná a používaná, alebo formálne existuje a nikto jej neverí?

Typické dopady, keď dokumentácia chýba

  • Incident trvá dlhšie: triage je pomalý, chýbajú overené kroky a eskalácia.
  • Rizikové zmeny: zmeny sa robia „od oka“, bez dohľadateľnosti a bez rollbacku.
  • Single point of knowledge: infra je závislá na 1–2 ľuďoch (dovolenka = riziko).
  • Neauditovateľnosť: ťažko sa preukazuje „kto a prečo“ (compliance, bezpečnosť).

Minimum štandard: 1) krátky HLD/LLD kontext (čo a prečo), 2) runbooky pre top incident scenáre, 3) change postup + rollback, 4) ownership a review, 5) verzovanie v repozitári (alebo aspoň história).

Runbook má byť krátky a použiteľný: symptóm → kontrola → akcia → rollback → eskalácia. Cieľom nie je napísať román, ale umožniť konzistentnú reakciu aj mimo „core“ tímu.

Súvisiace: