Ağ operasyonunda iki uç vardır: ya sadece “interface utilization” grafiğine bakarsın ya da her paketi yakalayıp boğulursun. Üretimde sürdürülebilir olan üçüncü yol, akış telemetrisidir: IPFIX/NetFlow/sFlow ile “kim kiminle, ne kadar, ne zaman konuştu” sorusuna yeterli doğrulukla cevap verebilirsin.
Bu yazıda, DDoS triage ve kapasite/peering kararlarını destekleyen, gerçekçi bir flow pipeline tasarımını anlatıyorum.
Akış telemetrisi sana ne kazandırır?
Özellikle şu senaryolarda flow “oyun değiştirir”:
- DDoS: saldırı vektörü (protocol/port), top talker, hedef prefix/servis
- Kapasite: hangi uygulamalar hattı dolduruyor, hangi saatlerde patlıyor
- Anomali: yeni hedef ülke/ASN, beklenmedik port, “yüksek fan-out” davranışı
- Incident: “hangi segment konuştu?” sorusu için hızlı kanıt
Pipeline bileşenleri (minimal ama yeterli)
Benim pratikte işe yarayan minimum mimari:
- Exporter: router/switch/firewall üzerinde IPFIX/NetFlow
- Collector: UDP alır, normalize eder (mümkünse HA)
- Enrichment: ASN/GeoIP, prefix, uygulama etiketleri
- Storage: hızlı sorgu (çoğu zaman columnar DB)
- Dashboard/Alert: DDoS triage ve kapasite için hazır paneller
Exporter tarafı: doğru yerde, doğru hızda
Flow’u nereden çıkaracağın kritik:
- Edge uplink: DDoS ve transit/peering görünürlüğü
- DC core: east-west yoğunluk, kritik segmentler
- Firewall: politika/zone bağlamıyla korelasyon (vendor’a bağlı)
Sampling kararını netleştir:
- DDoS ve volumetrik görünürlük için sampling (ör. 1/1000) çoğu zaman yeterlidir.
- Düşük hacimli ama kritik akışlarda (auth/management) sampling agresif olursa sinyali kaçırabilirsin.
Collector tarafı: UDP gerçeği ve dayanıklılık
Flow collector’ın üretim gerçeği:
- UDP packet loss olur; bunu “tasarım varsayımı” yap.
- Collector kapasitesi dolarsa veri kaybı sessizdir.
- Bu nedenle collector’a da metrik koy:
ingest_qps,dropped_packets,queue_depth,cpu,disk.
HA için pratik iki yaklaşım:
- Exporter’larda iki collector hedefi (aktif/aktif) destekleniyorsa kullan
- Destek yoksa: anycast VIP + stateless collector (ama burada da loss/dedup konuşulur)
Enrichment: ham flow “tek başına” yetmez
Operasyonel değeri artıran zenginleştirmeler:
- ASN/GeoIP: kaynak/destination ASN değişimi anomali sinyali üretir
- Prefix map: “hangi servis/prefix hedef” sorusunu hızlandırır
- Port map: 443 her zaman “HTTPS” değildir; ama baseline için iyidir
- Device/zone etiketi: hangi edge/DC/segment
Sorgu modeli: triage sorularına göre tasarla
DDoS triage sırasında en sık sorduğum sorular:
- Hedefteki top
dst_ip/dst_prefixne? - Top
protocol/portdağılımı nasıl? - Top
src_asn/src_countryne? - “Normal baseline”a göre artış nerede başladı?
Bu sorulara hızlı cevap için “son 15 dk, 1 saat, 24 saat” presetleri ve hazır query’ler şart.
Alert mantığı: “hızlı sinyal, düşük gürültü”
Basit ama işe yarayan alarm örnekleri:
- Belirli prefix/servis için
bpsveyappseşik aşımı (baseline ile) - Yeni görülen
dst_port(prod’da hiç yokken bir anda yükseliyorsa) - Tek bir
src_asn’den aşırı artış
Runbook: DDoS anında flow ile 5 dakikada tablo çıkar
Benim pratik “ilk 5 dakika” akışım:
- Hedef prefix/servisi belirle (LB VIP, anycast prefix, app subnet)
- Son 5–10 dk için top
dst_port/protocolçıkar - Top
src_asnve topsrc_countryçıkar - Eğer
udp/53,udp/123,udp/1900gibi bilinen vektörlerse upstream ile aynı dilden konuş - Mitigation kararını ver: RTBH/FlowSpec/scrubbing/WAF (servis tipine göre)
Bu disiplinde flow, “hissettim saldırı var” yerine “kanıt” üretir.
Sonuç
IPFIX/NetFlow tabanlı telemetri hattı; DDoS anında daha hızlı ve daha doğru karar almanı, normal zamanda ise kapasite ve anomali görünürlüğünü güçlendirmeyi sağlar. Paket yakalama kadar ağır değildir, SNMP grafiği kadar kör de değildir. Doğru sampling, iyi enrichment ve net triage soruları ile flow telemetrisi ağ operasyonunun en verimli sinyal kaynaklarından birine dönüşür.