İçeriğe Atla
Teknoloji · 10 dk okuma · görüntülenme
100%

Chaos Engineering için Güvenli Deney Düzlemi

Üretimde kör risk almadan dayanıklılık testleri yapmak için hipotez, blast radius ve otomatik geri dönüş guardrail’leri.

Güvenli chaos engineering deney düzlemini anlatan kapak görseli

Dayanıklılık, “problem yokken” yapılan yatırımla kazanılır. Fakat üretimde dayanıklılık testi yapmak çoğu ekipte haklı bir refleksle korku yaratır: “Ya gerçekten kırarsak?” Bu yazıda kaosu romantize etmeden, operasyonel gerçeklikte çalışan bir yaklaşımı anlatıyorum: deney düzlemi.

Güvenli chaos engineering deney düzlemini anlatan kapak görseli
Kaos, rastgele kırmak değildir: hipotez + ölçüm + geri dönüş guardrail’leri ile kontrollü bir test disiplinidir.

Chaos engineering’i ne zaman ciddiye alırım?

Şu üç koşul varsa kaos çalışması “olsa güzel olur” değil, risk azaltma işidir:

  1. Üretimde çoklu bağımlılık (DB, cache, queue, 3rd party, network katmanı) büyüdüyse
  2. Incident sonrası “bunu test edemezdik” cümlesi tekrar etmeye başladıysa
  3. Değişiklik hızlandı ama SLO/SLA baskısı aynı kaldıysa

Deney düzlemi: Kaosu güvenli kılan mimari

Benim önerdiğim model dört katmandan oluşur:

  • Hipotez katmanı: “Şu bileşen 2 dakika gecikirse, kullanıcı etkisi X olur” gibi ölçülebilir hedef.
  • Blast radius katmanı: Deneyi tüm trafiğe değil, hedefli bir parçaya uygula.
  • Guardrail katmanı: Otomatik durdurma/geri alma sınırları.
  • Delil katmanı: Metrik + log + trace ile “gerçekten ne oldu?” sorusunu kanıtla.

Bu model yoksa chaos engineering genelde “cesaret gösterisi”ne döner ve ekip güvenini yakar.

Başlangıç için en güvenli 6 deney tipi

Üretimde en az sürpriz çıkaran deneyler:

  1. Latency injection (ör. downstream’e 200–500ms)
  2. Error rate injection (kontrollü 5xx/timeout)
  3. Pod/VM kill (tek instance öldürme)
  4. Network partition simulasyonu (kısıtlı segmentte)
  5. Rate limit / quota (kademeli sıkılaştırma)
  6. Dependency blackhole (yalnızca canary ring’te)

Blast radius: “Herkese” değil “hedefe” uygula

Blast radius’ı düşürmek için pratik yöntemler:

  • Release ring: deneyi sadece canary ring’e uygula
  • Tenant/segment: yalnızca düşük riskli tenant’a uygula
  • Endpoint: sadece arka planda çalışan job endpoint’lerine uygula
  • Zaman penceresi: belirli dakikalarda, on-call hazırken uygula

En önemli prensip şudur: Deney etki alanı, geri dönüş hızınızdan büyük olmamalı.

Guardrail: Deney otomatik nasıl durur?

Kaosun güvenli olması için “insan fark eder” yaklaşımı yeterli değildir. Ben genelde şu guardrail’leri şart koşarım:

  • SLO tabanlı stop: error budget burn belirli eşiği aşarsa deney kapanır
  • Latency stop: p95/p99 belirli eşiği aşarsa kapanır
  • Satürasyon stop: queue depth, thread pool, conn pool doyarsa kapanır
  • İkincil sinyal stop: “checkout success rate” gibi iş metriği düşerse kapanır
  • Otomatik rollback: config flag / traffic split geri alınır

Guardrail’ler, deney tanımıyla birlikte version’lanmalı ve review’dan geçmelidir.

Deney formatı: Tek sayfalık disiplin

Bu formatı minimum standart yapınca kaos çalışması “bireysel kahramanlık”tan çıkar:

  • Amaç: hangi riski azaltıyoruz?
  • Hipotez: beklenen davranış (ölçülebilir)
  • Ön koşullar: alert’ler, dashboard’lar, runbook hazır mı?
  • Blast radius: hangi ring/tenant/endpoint?
  • Guardrail: hangi sinyallerde otomatik stop?
  • Geri dönüş: tek komutla/tek flag ile kapanıyor mu?
  • Delil: çıktılar nereye yazılıyor?

Başarı kriteri: “Kırmadık” değil, “öğrendik”

Deney sonunda şu sorulara net cevap yoksa deney boşa gider:

  • Beklediğimiz alarmlar gerçekten tetiklendi mi?
  • On-call akışı doğru mu çalıştı?
  • Hangi dashboard’lar yetersiz kaldı?
  • Geri dönüş süresi (MTTR) neydi?
  • Aynı sınıf incident tekrar etse daha hızlı toparlar mıyız?

Kaos çalışmasının ROI’si burada çıkar: daha az sürpriz, daha hızlı toparlanma, daha az operasyonel stres.

Paylaş:

Bu yazı faydalı oldu mu?

Yükleniyor...

Bu yazı nasıldı?

ME

Mustafa Erbay

Sistem Mimarisi · Network Uzmanı · Altyapı, Güvenlik ve Yazılım

2006'dan bu yana sistem mimarisi, network, sunucu altyapıları, büyük yapıların kurulumu, yazılım ve sistem güvenliği ekseninde çalışıyorum. Bu blogda sahada karşılığı olan teknik deneyimlerimi paylaşıyorum.

Kişisel Notlar

Bu notlar sadece sizde saklanır. Tarayıcınızda yerel olarak tutulur.

Hazır 0 karakter

Yorumlar

Sunucu Taraflı AI Moderasyon

Yorumlar sunucuda yapay zeka ile denetlenir ve kalıcı olarak saklanır.

?
0/2000

Sunucu taraflı AI denetim

Yeni yazılardan haberdar olun

Haftada bir yeni içerikler ve kaynaklar doğrudan e-postanıza gelsin.

Spam yok. Yalnızca yeni ve önemli içerikler için e-posta gönderilir.

Okuma İstatistikleriniz

0

Yazı Okundu

0dk

Okuma Süresi

0

Gün Serisi

-

Favori Kategori

İlgili Yazılar