1. Anasayfa
  2. VMware ESXi

VMware ESXi Host’un Üzerindeki RAID/HDD Hataları Nedeniyle Askıda Kalması


VMware ESXi host’ları sanal makinelerin güvenilir şekilde çalışması için yüksek performanslı depolama altyapısına ihtiyaç duyar. Ancak yerel RAID kontrolcüsü veya fiziksel disklerde (HDD/SSD) yaşanan donanım hataları, hostun tamamen yanıt veremez duruma gelmesine (hang) neden olabilir.

Bu tür hatalar yalnızca ilgili datastore’u değil aynı zamanda vMotion, NSX entegrasyonları, HA/DRS işlevleri ve bakım süreçlerini de olumsuz etkileyebilir.

Bu makalemde böyle bir sorunun belirtilerini, nedenlerini ve çözüm yöntemlerini detaylı olarak ele alıyoruz

Bir ESXi host’un yerel disk hatası nedeniyle askıda kalmasının anlaşılabileceği başlıca işaretler:

  1. Logların durması
    • tail -f vmkernel.log veya grep xxx vmkernel.log komutları çalıştırıldığında herhangi bir çıktı alınamaz. Bu durum host’un çekirdek seviyesinde takılı kaldığını gösterir.
  2. Tekrarlayan Kernel Backtrace
    • vmkernel.log içerisinde sürekli tekrar eden hata zinciri görülür:
vmk_LogBacktraceMessage
ahciRequestIo
scsiExecReadWriteCommand
ataIssueCommand
scsiQueueCommand

3. Datastore Heartbeat Timeout

vobd.log dosyasında aşağıdaki mesajları kaydedilir. Bu datastore’un sağlıklı yanıt veremediğini gösterir.

[vob.vmfs.heartbeat.timedout] <datastore_uuid> <datastore_name>

4. SCSI/ATA IO Hataları

vmkernel.log’da görülen uyarılar tipik olarak şöyledir.

WARNING: HPP: HppScsiThrottleLogForDevice: Cmd 0x2a (...) to dev "t10.ATA_____XXXXXXXX" Failed:
Error status H:0x5 D:0x22 P:0x0 Invalid sense data: 0x0 0x0 0x0
hppAction = 3

Bu tür mesajlar diskin komutlara yanıt veremediğini ortaya koyar.

5. Bakım Moduna Geçememe (Maintanence Mode)

VM’ler başka hostlara vMotion edilemez ve bu nedenle host bakım moduna alınamaz.

Temel sebep: RAID kontrolcüsü veya fiziksel disk(ler)de oluşan donanım arızalarıdır.

Bu hata sonucunda:

  • Disk IO işlemleri başarısız olur.
  • ESXi vmkernel düzeyinde kilitlenir.
  • Datastore heartbeat mekanizması yanıt veremez.
  • NSX gibi ağ bileşenleri bağlantı kaybeder.
  • VM’lerin sorunsuz taşınması (vMotion) engellenir.

Çözüm ve Öneriler

  1. Donanım İncelemesi
    • RAID kontrolcüsü ve fiziksel diskleri, sunucu üreticisinin (Dell, HPE, Lenovo vb.) sağladığı donanım diagnostik araçları ile test edin.
    • Arızalı disk veya kontrolcü tespit edilirse değiştirilmelidir.
  2. Geçici Çözüm: ESXi Yeniden Başlatma
    • Host yeniden başlatıldığında sistem geçici olarak toparlanabilir.
    • Ancak bu yöntem yalnızca kısa vadeli çözüm sağlar. Donanım sorunu çözülmedikçe problem tekrar edecektir.
  3. VM’lerin Taşınması (Önerilen Yol)
    • Eğer paylaşımlı datastore mevcutsa, VM’leri Storage vMotion kullanarak sağlıklı host’lara taşıyın.
    • Böylece sorunlu host boşaltılır ve bakım için hazır hale getirilir.
  4. Sunucu Üreticisi ile İletişime Geçin
    • Bu tür hatalar donanım kaynaklı olduğundan, kalıcı çözüm için server vendor ile iletişime geçilmesi şarttır.