Kurumsal sunucu altyapılarında NVMe diskler yüksek performans ve düşük gecikme avantajları nedeniyle yaygın olarak kullanılmaktadır. Ancak bu diskler doğrudan PCIe veri yolu üzerinden işlemci ile haberleştikleri için firmware seviyesindeki hatalar, yalnızca disk performansını değil tüm sistem kararlılığını etkileyebilmektedir.
HPE tarafından yayımlanan bu müşteri duyurusu (Customer Advisory) belirli NVMe SSD firmware sürümlerinin hem AMD hem de Intel tabanlı HPE Gen9, Gen10, Gen10 Plus ve Gen11 sunucularda Uncorrectable Machine Check Exception (UMCE) hatalarına neden olabildiğini ortaya koymaktadır. Bu durum işletim sisteminin çökmesine ve beklenmeyen sunucu yeniden başlatmalarına yol açabilmektedir.
Problemin Tanımı ve Teknik Arka Plan
Advisory’ye göre firmware sürümü MPK77H5Q, MPK7725Q veya HPK5 olan bazı HPE NVMe SSD modelleri, donanım seviyesinde düzeltilemeyen makine kontrol hataları (UMCE) üretmektedir.
UMCE işlemcinin donanım kaynaklı kritik bir hatayı algıladığını ve bu hatanın yazılım veya işletim sistemi tarafından telafi edilemediğini gösterir.
Böyle bir durumda sistem veri bütünlüğünü koruyabilmek için genellikle kendini durdurur (kernel panic / bugcheck) veya yeniden başlatır.
- AMD tabanlı sistemlerde:
UMCE doğrudan işlemci kaynaklı bir donanım hatası olarak kaydedilir. - Intel tabanlı sistemlerde:
UMCE’ye ek olarak Uncorrectable PCIe Bus Error kayıtları da oluşabilir.
Bu hataların tamamı HPE Integrated Management Log (IML) üzerinde kritik (Critical) seviyede loglanır.
Belirtiler ve Sistem Üzerindeki Etkiler
Sorun yaşayan sistemlerde aşağıdaki belirtiler gözlemlenebilir:
- İşletim sisteminin aniden çökmesi (Linux kernel panic / Windows bugcheck)
- Sunucunun beklenmedik şekilde reboot olması
- IML loglarında UMCE ve PCIe bus error kayıtları
- Uygulama servislerinde ani kesintiler
- Sanallaştırma ortamlarında VM’lerin plansız kapanması
Özellikle üretim ortamlarında bu durum:
- SLA ihlallerine
- Veri kaybı riskine
- Servis sürekliliğinin bozulmasına neden olabilir.
IML Üzerinden Örnek Hata Kayıtları
AMD Tabanlı Sistem Örneği
Uncorrectable Machine Check Exception (Processor 1, APIC ID 0x0000003B,
Bank 0x00000005, Status 0xBEA00000'00000108, Address 0x0101FFFF'B9137993).
ACTION: Update the system firmware. If the issue persists, contact support.
Intel Tabanlı Sistem Örneği
- UMCE kaydı
- Unrecoverable I/O Error
- Uncorrectable PCI Express Error Detected
Bu kayıtlar, hatanın yalnızca disk seviyesinde kalmadığını, PCIe veri yolu ve işlemciyi etkileyen sistemik bir problem olduğunu göstermektedir.
Etkilenen Sunucu Nesilleri
- HPE Gen9
- HPE Gen10
- HPE Gen10 Plus
- HPE Gen11
Hem AMD hem Intel mimarileri etkilenmektedir.
Etkilenen NVMe SSD Model Aileleri
- MZXL5* ile başlayan modeller
- MZXLR* ile başlayan modeller
- VO* ile başlayan modeller
- MO* ile başlayan modeller
Bu diskler; HPE ProLiant DL, ML, XL serileri ile Apollo sistemleri dahil olmak üzere çok geniş bir ürün ailesinde kullanılmaktadır.
Risk Değerlendirmesi
Bu problemin en kritik yönü, önceden tahmin edilemeyen ve anlık olarak ortaya çıkmasıdır. Disk SMART hatası veya performans düşüşü olmadan sistem aniden durabilir.
Başlıca riskler:
- Plansız servis kesintileri
- Sanallaştırma kümelerinde zincirleme etkiler
- Veritabanı ve transaction tabanlı uygulamalarda veri tutarsızlığı
- Donanım arızası sanılarak gereksiz parça değişimleri
Bu nedenle sorun, yalnızca “disk firmware problemi” olarak değil, iş sürekliliği riski olarak değerlendirilmelidir.
Kalıcı Çözüm ve Önerilen Aksiyonlar
Firmware Güncellemesi (Kalıcı Çözüm)
HPE tarafından yapılan açıklamaya göre problem, aşağıdaki firmware sürümlerinde kalıcı olarak giderilmiştir:
- MPK7825Q
- MPK78H5Q
- HPK6 veya daha yeni sürümler
Örnek Güncelleme Yolları
- MPK7725Q → MPK7825Q
- MPK77H5Q → MPK78H5Q
- HPK5 → HPK6
Bu güncelleme en kısa sürede uygulanmalıdır.
Firmware Güncelleme Adımları
- NVMe diskin model numarası belirlenir
- HPE Support Center üzerinden ilgili firmware paketi bulunur
- Sunucu işletim sistemine uygun online flash component indirilir
- Bakım penceresi planlanarak firmware güncellemesi uygulanır
Güncelleme öncesinde mutlaka yedekleme ve mümkünse test ortamında doğrulama yapılması önerilir.
Operasyonel Öneriler ve En İyi Uygulamalar
- IML logları düzenli olarak kontrol edilmelidir
- UMCE veya PCIe hatası görülen sistemlerde disk firmware sürümü mutlaka doğrulanmalıdır
- Büyük ortamlarda firmware versiyonları envanter bazlı takip edilmelidir
- Firmware güncellemeleri, sunucu BIOS ve sistem ROM güncellemeleriyle uyumlu şekilde planlanmalıdır
Bu advisory NVMe disklerde firmware seviyesinde oluşabilecek bir hatanın, doğrudan tüm sunucuyu etkileyebileceğini açıkça göstermektedir. Sorun:
- Donanım arızası gibi görünse de
- Aslında firmware kaynaklı,
- Yazılımsal olarak çözülebilen
- Ancak müdahale edilmezse ciddi iş kesintilerine yol açabilen
kritik bir altyapı riskidir.
Bu nedenle, etkilenen NVMe disklerin firmware sürümleri acilen kontrol edilmeli ve HPE’nin önerdiği kalıcı firmware sürümlerine yükseltilmelidir.
Kaynak : https://support.hpe.com/hpesc/public/docDisplay?docId=emr_na-a00142315en_us