İçeriğe Atla
Kariyer · 11 dk okuma · görüntülenme
100%

Platform Mülakatında Incident Walkthrough ve Operasyonel Sinyaller

SRE/Platform/Infra mülakatlarında adayın gerçek üretim refleksini ölçmek için incident walkthrough çerçevesi ve puanlama rubriği.

Mülakatta incident walkthrough akışını ve sinyalleri gösteren kapak görseli

Platform/SRE/Infra rollerinde mülakatın en büyük riski şudur: aday “teori” konuşur, siz de “teori” ile ikna olursunuz. Sonra üretimde ilk gerçek incident geldiğinde; belirsizlik yönetimi, sinyal okuma, riskli değişikliği kontrollü yapma ve iletişim refleksi eksik kalır.

Ben bu yüzden mülakatta mutlaka bir incident walkthrough kullanırım. Bu, adayın geçmişte yaşadığı (veya kurgulanmış) bir olayı, adım adım nasıl yönettiğini anlatmasıdır. Doğru kurgulanırsa, CV’de görünmeyen operasyonel kasları çok net ortaya çıkarır.

Mülakatta incident walkthrough akışını ve sinyalleri gösteren kapak görseli
İyi aday “ne yaptım” kadar “neden öyle yaptım”ı da anlatır.

Incident walkthrough nedir, neyi ölçer?

Walkthrough ile şunları ölçersiniz:

  • Sinyal okuma: metrik/log/trace/network sinyali ayırma
  • Hipotez kurma: “en olası”dan “en riskli”ye doğru ilerleme
  • Risk yönetimi: hızlı çözüm ile güvenli çözüm arasındaki denge
  • İletişim: stakeholder yönetimi, incident komutası, durum güncellemesi
  • Öğrenme: postmortem, kalıcı önlem, tekrarını engelleme

Kurgulama: 30 dakikalık ideal akış

Benim sevdiğim akış:

  1. Context (2 dk): sistem ne, kritik path ne, SLO ne?
  2. Semptom (3 dk): alarm ne dedi, kullanıcı ne yaşadı?
  3. Triage (8 dk): ilk 10 dakika ne yaptın, neye baktın?
  4. Müdahale (7 dk): hangi değişikliği yaptın, riski nasıl yönettin?
  5. İletişim (5 dk): kimleri nasıl bilgilendirdin?
  6. Kapanış (5 dk): postmortem, aksiyonlar, ölçüm

Her adımda adaydan “kanıt” istersiniz:

  • hangi metrik?
  • hangi log satırı sınıfı?
  • hangi dashboard?
  • hangi runbook?

Güçlü sinyaller (benim için)

1) “SLO dili” ile konuşması

“Servis yavaştı” yerine:

  • p95/p99, error rate
  • hangi kullanıcı segmenti etkilendi
  • blast radius (tek region mı?)

2) Hipotezleri sıraya koyması

Güçlü aday şunu yapar:

  • hızlı ve düşük riskli kontroller
  • sonra daha invaziv adımlar

Örnek sıra:

  1. En son deploy/konfig değişikliği var mı?
  2. Bağımlılıklar sağlıklı mı?
  3. Saturation sinyali var mı (CPU, queue, conntrack, pool)?
  4. Kontrollü degrade veya trafik kısma mümkün mü?

3) “Rollback” refleksi ve karar eşiği

İyi aday sadece “rollback yapardım” demez; şunu söyler:

  • “hangi sinyalde rollback”
  • “rollback sonrası doğrulama”
  • “tekrar rollout için şartlar”

4) İletişim kalitesi

Birçok teknik aday burada zayıftır. Ben şunları ararım:

  • net durum update’i (ne biliyoruz, ne bilmiyoruz)
  • tek bir karar sahibi (incident commander)
  • “gürültü” ile “sinyal” ayrımı

Zayıf sinyaller (red flag)

  • Her soruya “autoscale” cevabı
  • Metrik görmeden “network bozuk” demek
  • Riskli değişikliği “canlıda deneriz” yaklaşımı
  • Postmortem’i “rapor” zannetmek (aksiyon ve önlem yok)

Basit puanlama rubriği (pratik)

Ben genelde 5’li bir rubrik kullanıyorum:

Boyut135
Sinyal okumarastgeletemel metrikdoğru metrik seti + korelasyon
Hipoteztek fikre saplanmabirkaç hipotezsıralı, kanıtlı, iteratif
Risk yönetimikontrolsüz değişimtemkinlicanary/rollback/guardrail
İletişimyoktemelIC modeli + düzenli update
Öğrenmepostmortem yokkısmikalıcı önlem + ölçüm

Aday için hazırlık: “olay” seçimi nasıl olmalı?

Adaylara önerim:

  • Büyük bir olay seçmek zorunda değilsin; önemli olan karar noktaları.
  • “Ben çözdüm” değil, “ekip olarak şöyle yönettik” dili daha gerçekçidir.
  • Postmortem aksiyonlarından 1–2 tanesini anlat.

Sonuç

Platform mülakatında incident walkthrough; adayın gerçek üretim refleksini ölçmenin en düşük maliyetli ve en yüksek sinyal veren yollarından biridir. Doğru kurgulayıp rubrikle puanladığınızda; hem iyi adayları kaçırmazsınız hem de “teoride iyi, pratikte zorlanan” eşleşmeleri azaltırsınız.

Paylaş:

Bu yazı faydalı oldu mu?

Yükleniyor...

Bu yazı nasıldı?

ME

Mustafa Erbay

Sistem Mimarisi · Network Uzmanı · Altyapı, Güvenlik ve Yazılım

2006'dan bu yana sistem mimarisi, network, sunucu altyapıları, büyük yapıların kurulumu, yazılım ve sistem güvenliği ekseninde çalışıyorum. Bu blogda sahada karşılığı olan teknik deneyimlerimi paylaşıyorum.

Kişisel Notlar

Bu notlar sadece sizde saklanır. Tarayıcınızda yerel olarak tutulur.

Hazır 0 karakter

Yorumlar

Sunucu Taraflı AI Moderasyon

Yorumlar sunucuda yapay zeka ile denetlenir ve kalıcı olarak saklanır.

?
0/2000

Sunucu taraflı AI denetim

Yeni yazılardan haberdar olun

Haftada bir yeni içerikler ve kaynaklar doğrudan e-postanıza gelsin.

Spam yok. Yalnızca yeni ve önemli içerikler için e-posta gönderilir.

Okuma İstatistikleriniz

0

Yazı Okundu

0dk

Okuma Süresi

0

Gün Serisi

-

Favori Kategori

İlgili Yazılar