Teknik liderlikte en görünmez ama en belirleyici alışkanlıklardan biri, operasyonel durumu yalnızca incident olduğunda konuşmamaktır. Birçok ekip üretim sağlığını alarm patladığında, kritik müşteri etkisi oluştuğunda veya yorgunluk artık hissedilir düzeye geldiğinde tartışıyor. O noktada konuşulan konu genellikle çözüm değil, birikmiş borcun hasarı oluyor. Daha iyi yaklaşım ise haftalık ya da iki haftalık net bir operasyon sağlığı gözden geçirme ritmi kurmaktır.
Bu ritim tam olarak ne işe yarar?
Operasyon sağlığı oturumu bir status meeting değildir. Amaç; ekipten genel güncelleme almak değil, üretim davranışını ve ekip yükünü aynı karede görmektir. Ben bu oturumların özellikle şu dört soruya cevap üretmesini değerli buluyorum:
- Hangi alarm veya incident türü tekrar ediyor?
- Hangi hizmette sessizce biriken runbook veya otomasyon borcu var?
- Hangi ekip ya da kişi orantısız operasyon yükü taşıyor?
- Hangi risk birkaç küçük yatırım ile düşürülebilir?
Bu sorular düzenli sorulmadığında liderlik refleksi kaçınılmaz olarak sadece acil olana çalışır.
Hangi veriler masaya gelmeli?
İyi bir gözden geçirme toplantısı sezgiye değil, küçük ama anlamlı bir veri paketine dayanmalıdır. Ben şu seti yeterli buluyorum:
- Son hafta incident ve major alarm sayısı
- En çok sayfa alan servisler
- Gürültülü ama düşük değerli alarm kümeleri
- Güncellenmeyen runbook veya eksik otomasyon listesi
- Nöbet dağılımı ve kişi bazlı yük dengesi
Buradaki amaç yönetim raporu üretmek değil, müdahale kararını besleyecek kadar ortak gerçeklik yaratmaktır.
Toplantı nasıl bozulur?
En sık görülen hata, bu oturumu genel teknik gündem toplantısına çevirmektir. Bir başka hata ise herkesten uzun durum özeti istemektir. Böyle olunca operasyon sağlığı yerine toplantı yorgunluğu üretilir. Sağlıklı format bence en fazla 30 ila 45 dakikadır ve şu sırayı izler:
- Geçen dönemin kritik sinyalleri
- Tekrarlayan sorunların kök desenleri
- Küçük ama etkili iyileştirme kararları
- Sahiplik ve kapanış tarihi
Bu iskelet, konuşmayı teknik ayrıntıda boğmadan somut eyleme taşır.
Teknik lider burada hangi rolü oynar?
Teknik liderin görevi yalnızca metriği sunmak değildir. Asıl iş, sayının arkasındaki davranışı tercüme etmektir. Örneğin aynı servis bir haftada üç kez alarm üretmiş olabilir. Mesele sadece o servisin bozulması değildir; belki alarm eşiği yanlıştır, belki runbook eksiktir, belki de ekipte konuyu bilen kişi çok azdır. Lider bu sinyali kişi performansı tartışmasına değil, sistem tasarımı ve ekip sağlığı bağlamına taşımalıdır.
Bu yüzden iyi liderlik şu ayrımı yapar:
- Kimin hatası sorusu yerine hangi desen tekrar ediyor?
- Daha fazla dikkat yerine hangi mekanizma eksik?
- Daha çok kahramanlık yerine hangi otomasyon gerekli?
Mentorluk ve kıdemli mühendislik pratiğiyle ilişkisi
Bu ritim, kıdemli mühendisler için önemli bir mentorluk alanıdır. Çünkü üretim sağlığı yalnızca dashboard okumak değildir; sinyalden aksiyona giden yolu öğrenmektir. Kıdemli mühendis adayları bu toplantılarda şunları görür:
- Teknik borcun operasyon maliyetine nasıl dönüştüğünü
- Alarm kalitesinin ekip davranışını nasıl etkilediğini
- Küçük platform yatırımlarının nöbet yükünü nasıl azalttığını
Bence gerçek kıdem, sadece zor problemi çözmek değil; tekrar eden problemi sistematik biçimde küçültmeyi öğrenmektir.
Hangi çıktılar beklenmeli?
Her oturumun sonunda en fazla birkaç net çıktı olmalı:
- Kapatılacak bir alarm gürültüsü
- Yazılacak veya güncellenecek bir runbook
- Otomasyona alınacak bir operasyon adımı
- Ekip yükünü dengelemek için sahiplik değişikliği
Bu liste uzadığında ritim etkisini kaybeder. Ama düzenli şekilde çalıştığında birkaç hafta içinde ekipte belirgin sakinlik oluşur.
Sonuç
Teknik liderler için operasyon sağlığı gözden geçirme ritmi, incident çözümünden farklı bir kas geliştirir: tekrar eden acıyı görünür kılma ve onu sistematik olarak küçültme kası. Alarm gürültüsü, runbook borcu ve kişi bazlı yük tek bir çerçevede okunduğunda ekip daha az reaktif, daha çok bilinçli hareket eder. Operasyon kültürü de tam burada olgunlaşır.