İçeriğe Atla
Kariyer · 6 dk okuma · görüntülenme
100%

Minimum Viable Runbook Şablonu ve Incident Karar Noktaları

Runbook’u dokümantasyon yığını olmaktan çıkarıp incident anında karar üreten bir araca dönüştürmek için minimum şablon, eşikler ve pratik örnekler.

Incident triage adımları ve karar eşiklerini gösteren kapak görseli

Runbook kelimesi çoğu ekipte ya “hiç yok”tur ya da “kimsenin okumadığı uzun doküman”dır. Oysa iyi runbook’un hedefi bilgi depolamak değil, incident anında karar üretmektir.

Benim sahada en çok iş yapan yaklaşım şu: Runbook’u “Minimum Viable” seviyeye indir, ama içine mutlaka karar eşikleri koy. Aksi hâlde runbook, kronoloji yazıp kimseyi kurtarmayan bir metne dönüşür.

1) Minimum Viable Runbook (MVR) nedir?

MVR şu sorulara 3 dakikada cevap veriyorsa yeterlidir:

  • Bu alarm neyi ifade ediyor? (etki)
  • İlk 5 dakikada hangi kanıt toplanır? (triage)
  • Hangi noktada hangi aksiyon alınır? (eşik/karar)
  • Müdahale sonrası neyle doğrularız? (verification)
  • Yanlış gittiğinde nasıl geri alırız? (rollback)

2) Şablon: tek sayfada runbook

Aşağıdaki şablonu olduğu gibi kopyalayabilirsin:

Başlık

  • Servis / bileşen adı
  • Alarm adı ve seviyesi (P1/P2)
  • Sahip ekip ve escalation kanalı

Etki tanımı

  • Kullanıcı etkisi (ne bozulur?)
  • Blast radius (hangi bölgeler/tenant’lar?)
  • SLO/SLI (hangi metrik ihlal olur?)

Triage (0–5 dakika)

  • İlk bakılacak dashboard link’leri
  • İlk bakılacak log sorguları
  • Kanıt listesi (mutlaka topla)

Karar eşikleri (en kritik bölüm)

Örnek:

  • Eğer hata oranı > %5 ve latency p95 > 2s ise → trafik azalt
  • Eğer DB connection wait > 1s ise → retry’ı düşür ve concurrency limit uygula
  • Eğer deploy sonrası başladıysa → rollback değerlendirmesi

Mitigasyon merdiveni (düşük risk → yüksek risk)

  1. Trafiği düşür (rate limit / degrade)
  2. Cache/queue ile baskıyı azalt
  3. Rollback / feature flag kapat
  4. Failover / bölge izolasyonu

Doğrulama

  • Hangi metrik normale dönünce “incident bitti” denir?
  • Ne kadar süre gözlem yapılır? (örn. 15 dk)

Rollback

  • Tek komut / tek PR / tek toggle
  • Geri dönüş sonrası doğrulama

İletişim

  • Status update periyodu (örn. 15 dk)
  • Kimin bilgileneceği (iç/dış)

3) Karar noktalarını netleştirme: ekipleri sakinleştiren şey budur

Runbook’un “liderlik” tarafı burada başlar: belirsizliği azaltmak.

Pratik karar soruları:

  • “Şu an müşteri kaybı var mı, yoksa sadece sinyal mi?”
  • “Bu değişiklik geri alınırsa daha büyük risk üretir mi?”
  • “Trafiği azaltmak hangi kullanıcıyı etkiler, hangisini korur?”

En yaygın hata:

  • Her şeyi aynı anda denemek.

En iyi refleks:

  • Bir hipotez → bir müdahale → bir doğrulama döngüsü.

4) Runbook’u yaşat: tatbikat ve güncelleme ritmi

MVR’in ölmemesi için iki basit kural:

  • Her P1/P2 sonrası runbook’a 10 dakikalık “patch” yapılır.
  • Ayda bir 30 dakikalık küçük tatbikat yapılır (sadece triage bile yeter).

5) Kapanış: runbook, operasyonel sakinlik üretir

Kurumların olgunluğu, en iyi günlerinde değil en kötü günlerinde ölçülür. Incident anında runbook’un amacı kahraman çıkarmak değil; ekibin aynı dili konuşmasını, aynı eşiklerle karar vermesini ve daha az panikle daha hızlı toparlanmasını sağlamaktır.

Paylaş:

Bu yazı faydalı oldu mu?

Yükleniyor...

Bu yazı nasıldı?

ME

Mustafa Erbay

Sistem Mimarisi · Network Uzmanı · Altyapı, Güvenlik ve Yazılım

2006'dan bu yana sistem mimarisi, network, sunucu altyapıları, büyük yapıların kurulumu, yazılım ve sistem güvenliği ekseninde çalışıyorum. Bu blogda sahada karşılığı olan teknik deneyimlerimi paylaşıyorum.

Kişisel Notlar

Bu notlar sadece sizde saklanır. Tarayıcınızda yerel olarak tutulur.

Hazır 0 karakter

Yorumlar

Sunucu Taraflı AI Moderasyon

Yorumlar sunucuda yapay zeka ile denetlenir ve kalıcı olarak saklanır.

?
0/2000

Sunucu taraflı AI denetim

Yeni yazılardan haberdar olun

Haftada bir yeni içerikler ve kaynaklar doğrudan e-postanıza gelsin.

Spam yok. Yalnızca yeni ve önemli içerikler için e-posta gönderilir.

Okuma İstatistikleriniz

0

Yazı Okundu

0dk

Okuma Süresi

0

Gün Serisi

-

Favori Kategori

İlgili Yazılar