Incident Sırasında Delil Toplama Kiti ve Roller

Incident anında iki uç vardır: ya hiç veri yoktur ya da “her şeyi topla” diye sistemi log/pcap’a boğarsın. İkisinin de ortak sonucu aynıdır: postmortem’de “tam olarak ne oldu?” sorusuna kanıt yerine yorumla cevap verilir.

Benim sahada en çok işe yarayan yaklaşım: Delil Toplama Kiti (evidence kit) + rol dağılımı. Bu ikisi, incident’ı sadece söndürmek değil, aynı zamanda bir sonraki incident’ı ucuzlatmak için çalışır.

Neyi hedefliyoruz?

Olayı çözerken kanıtı öldürmemek
Olaydan sonra “şansa bağlı” değil, kanıta dayalı iyileştirme yapmak
Güvenlik (forensics) ihtiyacı doğarsa, başlangıç verisini hazır tutmak

Rol dağılımı: üç kişi, üç sorumluluk

Küçük ekiplerde bile bu ayrım işe yarar:

Incident Commander (IC): karar alır, öncelik belirler, iletişimi yönetir
Scribe: zaman çizelgesi tutar, alınan aksiyonları ve sonuçlarını yazar
Evidence Owner: kanıt checklist’ini yürütür (log/snapshot/konfig)

Bu üç rol tek kişide toplanırsa, genelde kanıt kısmı kaybolur.

Delil Toplama Kiti: “minimal ama geri üretilebilir”

Ben kit’i 6 parçaya ayırıyorum. Her parça için “neden var?” sorusunun cevabı nettir.

1) Zaman standardı

Tüm sistemlerde NTP/Chrony sağlık kontrolü
Incident’ta tüm kayıtların UTC veya tek bir saat standardıyla toplanması

Pratik kontrol:

timedatectl status
chronyc tracking 2>/dev/null || true

2) Değişiklik izi (change evidence)

Olayın en sık kök nedeni: “az önce bir şey değişti.”

Topla:

Deploy/CI/CD logu (commit SHA, pipeline id)
Config management değişiklikleri
Firewall/LB/policy değişiklikleri

3) Erişim izi (access evidence)

Topla:

Bastion/SSO audit
Privileged komut kayıtları (auditd, shell history değil; audit)
Break-glass kullanımı (kim, ne zaman, neden)

4) Servis sinyali (service evidence)

Topla:

Hata oranı, latency, saturation (SLO/SLI)
En kritik dashboard ekran görüntüsü veya export
Alarm fırtınası varsa “hangileri semptom, hangileri neden” notu

5) Sistem sinyali (host evidence)

Topla:

CPU/memory/disk/net temel metrikleri
Son 30–60 dk kernel logları
OOM, conntrack table full, filesystem error gibi “tek satırlık” kritik sinyaller

Pratik:

uptime
free -m
df -h
dmesg -T | tail -n 200
journalctl --since "-60m" --no-pager | tail -n 200

6) Konfig snapshot (config evidence)

Amaç: “şu anki hâli” dondurmak.

Edge: routing table / policy snapshot
Uygulama: feature flag durumu, env/secret versiyonu (değer değil, sürüm)
Infra: LB pool üyeleri, weight’ler, health-check state

Incident akışına nasıl bağlanır?

En pratik model:

IC ilk 5 dakikada containment kararını verir
Scribe, her aksiyonu “timestamp + komut + sonuç” olarak yazar
Evidence Owner, containment sonrası ilk sakinleşme anında kit’i tamamlar

Bu sayede “yangın söndürme” ile “kanıt üretme” aynı anda yürür.

Sonuç

Delil toplama kiti, incident’ı yavaşlatmaz; doğru kurulduğunda incident’ı hızlandırır. Çünkü ekip, panik anında “ne toplayalım?” diye düşünmez; standart çalışır. Operasyonel liderlik burada başlar: sadece sistemi değil, olayı yönetme sistemini de tasarlamak.

Incident Sırasında Delil Toplama Kiti ve Roller

Neyi hedefliyoruz?

Rol dağılımı: üç kişi, üç sorumluluk

Delil Toplama Kiti: “minimal ama geri üretilebilir”

1) Zaman standardı

2) Değişiklik izi (change evidence)

3) Erişim izi (access evidence)

4) Servis sinyali (service evidence)

5) Sistem sinyali (host evidence)

6) Konfig snapshot (config evidence)

Incident akışına nasıl bağlanır?

Sonuç

Yorumlar

Yeni yazılardan haberdar olun

Okuma İstatistikleriniz

İlgili Yazılar

Minimum Viable Runbook Şablonu ve Incident Karar Noktaları

Major Incident Yönetimi: Incident Commander ve Runbook Pratikleri

Operasyonel Liderlikte Access Review ve Ayrıcalıklı Erişim Ritmi

Blog içinde ara

Neyi hedefliyoruz?

Rol dağılımı: üç kişi, üç sorumluluk

Delil Toplama Kiti: “minimal ama geri üretilebilir”

1) Zaman standardı

2) Değişiklik izi (change evidence)

3) Erişim izi (access evidence)

4) Servis sinyali (service evidence)

5) Sistem sinyali (host evidence)

6) Konfig snapshot (config evidence)

Incident akışına nasıl bağlanır?

Sonuç

Yorumlar

Yeni yazılardan haberdar olun

Okuma İstatistikleriniz

İlgili Yazılar

Minimum Viable Runbook Şablonu ve Incident Karar Noktaları

Major Incident Yönetimi: Incident Commander ve Runbook Pratikleri

Operasyonel Liderlikte Access Review ve Ayrıcalıklı Erişim Ritmi

Klavye Kısayolları