Platform/SRE/Infra rollerinde mülakatın en büyük riski şudur: aday “teori” konuşur, siz de “teori” ile ikna olursunuz. Sonra üretimde ilk gerçek incident geldiğinde; belirsizlik yönetimi, sinyal okuma, riskli değişikliği kontrollü yapma ve iletişim refleksi eksik kalır.
Ben bu yüzden mülakatta mutlaka bir incident walkthrough kullanırım. Bu, adayın geçmişte yaşadığı (veya kurgulanmış) bir olayı, adım adım nasıl yönettiğini anlatmasıdır. Doğru kurgulanırsa, CV’de görünmeyen operasyonel kasları çok net ortaya çıkarır.
Incident walkthrough nedir, neyi ölçer?
Walkthrough ile şunları ölçersiniz:
- Sinyal okuma: metrik/log/trace/network sinyali ayırma
- Hipotez kurma: “en olası”dan “en riskli”ye doğru ilerleme
- Risk yönetimi: hızlı çözüm ile güvenli çözüm arasındaki denge
- İletişim: stakeholder yönetimi, incident komutası, durum güncellemesi
- Öğrenme: postmortem, kalıcı önlem, tekrarını engelleme
Kurgulama: 30 dakikalık ideal akış
Benim sevdiğim akış:
- Context (2 dk): sistem ne, kritik path ne, SLO ne?
- Semptom (3 dk): alarm ne dedi, kullanıcı ne yaşadı?
- Triage (8 dk): ilk 10 dakika ne yaptın, neye baktın?
- Müdahale (7 dk): hangi değişikliği yaptın, riski nasıl yönettin?
- İletişim (5 dk): kimleri nasıl bilgilendirdin?
- Kapanış (5 dk): postmortem, aksiyonlar, ölçüm
Her adımda adaydan “kanıt” istersiniz:
- hangi metrik?
- hangi log satırı sınıfı?
- hangi dashboard?
- hangi runbook?
Güçlü sinyaller (benim için)
1) “SLO dili” ile konuşması
“Servis yavaştı” yerine:
- p95/p99, error rate
- hangi kullanıcı segmenti etkilendi
- blast radius (tek region mı?)
2) Hipotezleri sıraya koyması
Güçlü aday şunu yapar:
- hızlı ve düşük riskli kontroller
- sonra daha invaziv adımlar
Örnek sıra:
- En son deploy/konfig değişikliği var mı?
- Bağımlılıklar sağlıklı mı?
- Saturation sinyali var mı (CPU, queue, conntrack, pool)?
- Kontrollü degrade veya trafik kısma mümkün mü?
3) “Rollback” refleksi ve karar eşiği
İyi aday sadece “rollback yapardım” demez; şunu söyler:
- “hangi sinyalde rollback”
- “rollback sonrası doğrulama”
- “tekrar rollout için şartlar”
4) İletişim kalitesi
Birçok teknik aday burada zayıftır. Ben şunları ararım:
- net durum update’i (ne biliyoruz, ne bilmiyoruz)
- tek bir karar sahibi (incident commander)
- “gürültü” ile “sinyal” ayrımı
Zayıf sinyaller (red flag)
- Her soruya “autoscale” cevabı
- Metrik görmeden “network bozuk” demek
- Riskli değişikliği “canlıda deneriz” yaklaşımı
- Postmortem’i “rapor” zannetmek (aksiyon ve önlem yok)
Basit puanlama rubriği (pratik)
Ben genelde 5’li bir rubrik kullanıyorum:
| Boyut | 1 | 3 | 5 |
|---|---|---|---|
| Sinyal okuma | rastgele | temel metrik | doğru metrik seti + korelasyon |
| Hipotez | tek fikre saplanma | birkaç hipotez | sıralı, kanıtlı, iteratif |
| Risk yönetimi | kontrolsüz değişim | temkinli | canary/rollback/guardrail |
| İletişim | yok | temel | IC modeli + düzenli update |
| Öğrenme | postmortem yok | kısmi | kalıcı önlem + ölçüm |
Aday için hazırlık: “olay” seçimi nasıl olmalı?
Adaylara önerim:
- Büyük bir olay seçmek zorunda değilsin; önemli olan karar noktaları.
- “Ben çözdüm” değil, “ekip olarak şöyle yönettik” dili daha gerçekçidir.
- Postmortem aksiyonlarından 1–2 tanesini anlat.
Sonuç
Platform mülakatında incident walkthrough; adayın gerçek üretim refleksini ölçmenin en düşük maliyetli ve en yüksek sinyal veren yollarından biridir. Doğru kurgulayıp rubrikle puanladığınızda; hem iyi adayları kaçırmazsınız hem de “teoride iyi, pratikte zorlanan” eşleşmeleri azaltırsınız.