İçeriğe Atla
Rehberler · 13 dk okuma · görüntülenme
100%

Linux kdump ile Kernel Panic Crash Dump ve Triage Runbook'u

Kernel panic anında vmcore alıp hızlı triage yapmak için kdump kurulumunu, testini ve üretimde sürdürülebilir dump saklama akışını anlatır.

Kernel panic sonrası kdump akışını gösteren kapak görseli

Üretimde kernel panic yaşandığında iki uç senaryo görürsün: “makine reboot etti geçti” veya “saatlerce nedenini bulamadık”. Özellikle storage driver’ları, NIC offload, kernel güncellemeleri ve donanım kaynaklı sorunlarda, panikten sonra geriye kalacak en değerli artefakt vmcore’dur.

kdump, panic anında ikinci bir kernel ile açılıp bellek dump’ını alır ve “kanıt” bırakır. Bu yazı bir “sadece kurulum” rehberi değil; dump’ı alıp saklamayı, test etmeyi ve incident akışına bağlamayı hedefler.

Kernel panic sonrası kdump akışını gösteren kapak görseli
kdump doğru kurulduğunda panic, “kör reboot” değil analiz edilebilir bir olaya dönüşür.

Ön koşullar: kdump’u üretimde sürdürülebilir yap

kdump için üç gerçeği kabul et:

  • Dump büyük olabilir (RAM boyutuna bağlı)
  • Dump’ı lokal diskte tutmak her zaman güvenli değildir
  • Panic “nadiren” olur; bu yüzden test edilmezse çalışmayabilir

Bu nedenle başlangıç hedefin:

  • dump hedefini netleştir (lokal + merkezi kopya)
  • disk alanı ve retention politikası koy
  • düzenli test planı yaz

1) Crash kernel rezervasyonu (crashkernel)

kdump’un çalışması için bellekten bir bölüm “crash kernel”e ayrılır. Bu genelde kernel boot parametresiyle yapılır.

Örnek yaklaşım (dağıtıma göre değişir):

  • Bootloader’da crashkernel= parametresini set et
  • Reboot sonrası rezervasyonu doğrula

Doğrulama için:

cat /proc/cmdline
dmesg | rg -i "crashkernel|reserved"

2) kdump servisinin kurulumu ve enable edilmesi

Dağıtımına göre paket isimleri farklı olabilir; ama mantık aynıdır:

  1. kdump/kexec araçlarını kur
  2. kdump servisini enable et
  3. Dump hedefini ayarla (lokal disk / NFS / SSH / object storage gateway)

Durum kontrolü:

systemctl status kdump || true
kdumpctl status || true

3) Dump hedefi: “yazabildiğim tek yer” değil “kurtarabileceğim yer”

Benim sahada güvenli bulduğum iki katmanlı model:

  • Birincil: lokal disk (hızlı yazım, reboot sonrası hazır)
  • İkincil: merkezi depo (NFS/SSH) → incident analizi için erişilebilir

Eğer merkezi hedef kullanıyorsan:

  • Ağ yolunu kısıtla (sadece dump trafiği)
  • Kimlik/anahtar yönetimini sertleştir
  • Dump’ların PII içerebileceğini varsay (erişim ve retention)

4) Test: kontrollü panic tetikle ve doğrula

Üretimde “ilk panic” anında öğrenmek istemezsin. Pilot ortamda kontrollü test yap:

echo 1 | sudo tee /proc/sys/kernel/sysrq
echo c | sudo tee /proc/sysrq-trigger

Sistem panic olup reboot edecektir. Sonrasında dump dosyası üretildi mi kontrol et:

ls -lah /var/crash || true

5) Triage runbook: vmcore ile ilk 30 dakika

Panic sonrası ilk hedef “kök nedeni anında çözmek” değil, kanıtı korumak ve sınıflandırmak olmalı.

Benim 30 dakikalık akışım:

  1. Dump dosyasının varlığını doğrula (lokal ve/veya merkezi)
  2. Kernel sürümü / build ID / uptime bilgisini not al
  3. Son değişiklikleri kontrol et: kernel update, NIC/driver, firmware, workload değişimi
  4. Eğer tekrar ediyorsa: aynı ring’de mi, aynı donanım mı?
  5. vmcore’la analiz için “crash” ortamını hazırla (offline)

İlk kanıt paketi:

  • vmcore
  • dmesg / journalctl -b -1
  • uname -a
  • değişiklik kaydı (change/ticket)

6) Üretim disiplini: retention ve maliyet

Dump’lar büyük olabilir. Politika önerisi:

  • Her host için “son 1 dump” tut
  • Merkezi depoda 7–30 gün retention
  • Kritik sistemlerde dump’ı otomatik “evidence bundle”a bağla

Sonuç

kdump, kernel panic’i “görünmez reboot” olmaktan çıkarıp analiz edilebilir bir olaya dönüştürür. Gerçek değer; crashkernel ayarı, dump hedefi, test planı ve triage runbook’un birlikte tasarlanmasıyla ortaya çıkar. Üretimde süreklilik istiyorsan, en zor hatalar için bile kanıt bırakabilen bir altyapı kurmak zorundasın.

Paylaş:

Bu yazı faydalı oldu mu?

Yükleniyor...

Bu yazı nasıldı?

ME

Mustafa Erbay

Sistem Mimarisi · Network Uzmanı · Altyapı, Güvenlik ve Yazılım

2006'dan bu yana sistem mimarisi, network, sunucu altyapıları, büyük yapıların kurulumu, yazılım ve sistem güvenliği ekseninde çalışıyorum. Bu blogda sahada karşılığı olan teknik deneyimlerimi paylaşıyorum.

Kişisel Notlar

Bu notlar sadece sizde saklanır. Tarayıcınızda yerel olarak tutulur.

Hazır 0 karakter

Yorumlar

Sunucu Taraflı AI Moderasyon

Yorumlar sunucuda yapay zeka ile denetlenir ve kalıcı olarak saklanır.

?
0/2000

Sunucu taraflı AI denetim

Yeni yazılardan haberdar olun

Haftada bir yeni içerikler ve kaynaklar doğrudan e-postanıza gelsin.

Spam yok. Yalnızca yeni ve önemli içerikler için e-posta gönderilir.

Okuma İstatistikleriniz

0

Yazı Okundu

0dk

Okuma Süresi

0

Gün Serisi

-

Favori Kategori

İlgili Yazılar