Modern veri merkezlerinde donanım izleme yalnızca arıza anında değil arıza oluşmadan önce önlem alabilmek açısından kritik bir rol oynamaktadır. HPE sunucu altyapılarında bu görevi üstlenen en temel bileşenlerden biri HPE iLO 6 (Integrated Lights-Out) yönetim katmanıdır.

iLO 6 donanım sağlığına ilişkin tüm olayları Redfish protokolü üzerinden merkezi izleme ve yönetim platformlarına ileterek kesintisiz görünürlük sağlar.
Ancak HPE tarafından yayımlanan yüksek öncelikli bir müşteri duyurusu (Customer Advisory) iLO 6 firmware 1.54 sürümünün bu kritik izleme mekanizmasını bozabildiğini ortaya koymuştur.
Bu makalemde söz konusu problemin teknik arka planı, etkileri, riskleri ve çözüm adımları ayrıntılı şekilde ele alınmaktadır.
Problemin Tanımı ve Teknik Arka Plan
HPE’nin yayımladığı advisory’e göre iLO 6 firmware 1.54 sürümü sistemde kurulu olduğu süre boyunca Redfish Event Subscription yapılarını hatalı şekilde üzerine yazabilmektedir. Redfish Event Subscription’lar iLO’nun donanım ve yaşam döngüsü (lifecycle) olaylarını aşağıdaki sistemlere iletmesini sağlar:
- HPE OneView,
- HPE Compute Ops Management (COM),
- Redfish tabanlı üçüncü parti izleme yazılımları,
Firmware 1.54 bu kayıtları bozduğunda veya sildiğinde iLO tarafında donanım olayları oluşmaya devam etse bile bu olaylar merkezi izleme sistemlerine iletilmez. En kritik nokta ise şudur bu etki yalnızca hâlen 1.54 çalışan sistemlerle sınırlı değildir. Geçmişte bu sürümün kısa süreli bile yüklenmiş olması kalıcı etki bırakabilmektedir.
Kapsam ve Etkilenen Sistemler
Etkilenen Bileşenler
- HPE Integrated Lights-Out 6 (iLO 6)
Etkilenen Firmware
- iLO 6 v1.54
Etkilenme Koşulu
- iLO firmware geçmişinde 1.54 sürümünün herhangi bir zamanda yüklenmiş olması
Önemli Not:
Eğer iLO firmware’i 1.53 veya daha eski bir sürümden doğrudan 1.55 veya daha yeni bir sürüme yükseltildiyse subscription kayıtları zarar görmemiş olabilir. Bu senaryoda ek müdahale gerekmeyebilir.
Operasyonel ve Güvenlik Riskleri
Bu problemin en tehlikeli yönü sessiz (silent failure) bir etki yaratmasıdır. Yani sistemde arıza oluşur ancak izleme katmanı bunu fark edemez.
Başlıca riskler şunlardır:
- Disk, fan, güç kaynağı (PSU) ve sıcaklık arızalarının izleme sistemlerinde görünmemesi
- Kritik donanım uyarılarının e-posta, alarm veya dashboard’lara yansımaması
- Arızalara geç müdahale edilmesi ve planlanmamış servis kesintileri
- SLA ihlalleri ve operasyonel güven kaybı
- Denetim ve regülasyon süreçlerinde izleme eksikliği
- Donanım arızalarının zincirleme etkiyle veri kaybına yol açması
Özellikle büyük ve dağınık sunucu ortamlarında bu riskler fark edilmesi zor ama etkisi yüksek problemlere dönüşebilir.
Çözüm Yaklaşımı – Teknik ve Operasyonel Adımlar
1. Firmware Güncellemesi
İlk ve zorunlu adım, iLO 6 firmware’in 1.55 veya daha yeni bir sürüme yükseltilmesidir. Bu adım tek başına yeterli değildir ancak sonraki işlemler için ön koşuldur.
2. Redfish Event Subscription Temizliği
Firmware 1.54 çalışmış her iLO 6 sisteminde bozulmuş olabilecek subscription kayıtlarının manuel olarak temizlenmesi gerekir.
Uygulanması gereken Redfish API çağrısı:
POST /redfish/v1/EventService/Actions/Oem/Hpe/HpeEventService.ClearAllSubscriptions/
- API çağrısının dönüşü HTTP 200 OK olmalıdır.
- Bu işlem, iLO üzerindeki tüm eski ve bozuk subscription’ları temizler.
3. iLO Reset İşlemi
Subscription temizliği sonrasında mutlaka Reset iLO işlemi yapılmalıdır.
Bu adım kritik öneme sahiptir çünkü:
- Subscription’ların yeniden oluşturulması
- Redfish Event Service’in sağlıklı şekilde yeniden başlaması ancak iLO reseti sonrasında gerçekleşir.
HPE OneView Entegrasyonu Olan Ortamlar
HPE OneView, iLO 6’dan yaklaşık 8 saat boyunca health event alamazsa durumu otomatik olarak toparlayabilmektedir. Ancak operasyonel süreyi kısaltmak için aşağıdaki manuel işlemler önerilir:
- Server Hardware Refresh
- Enclosure tabanlı yapılarda Logical Enclosure Refresh
Bu işlemler, event subscription’ların yeniden senkronize edilmesini hızlandırır.
HPE Compute Ops Management (COM) Ortamları
Seçenek 1 – Network Tabanlı Müdahale
- iLO’nun bağlı olduğu switch portu kapatılır
- Port en az 2 dakika kapalı tutulur
- Port tekrar açılır
Bu işlem, COM tarafında bağlantının yeniden kurulmasını tetikler.
Seçenek 2 – iLO Üzerinden Müdahale
- iLO arayüzünde Compute Ops Management devre dışı bırakılır
- 2 dakika beklenir
- Yeniden etkinleştirilir
Her iki yöntem de PowerShell, Redfish API veya network otomasyon araçlarıyla script haline getirilebilir.
Diğer Redfish Tabanlı İzleme Yazılımları
Üçüncü parti izleme çözümleri kullanılıyorsa:
- Redfish subscription’ların manuel veya otomatik olarak yeniden oluşturulması gerekir
- Uygulama yöntemi, ilgili yazılımın üretici dokümantasyonuna göre değişiklik gösterir
Donanım Sağlığının Doğrulanması
Subscription’lar düzeltilmeden önce ve sonra:
- iLO arayüzünde IML (Integrated Management Log) sekmesi kontrol edilmelidir
- Mevcut warning veya critical seviyedeki olaylar manuel olarak doğrulanmalıdır
Bu adım, izleme boşluğu sırasında oluşmuş olası arızaların gözden kaçmamasını sağlar.
Otomasyon ve En İyi Uygulamalar
Büyük ölçekli ortamlarda manuel işlem yerine aşağıdaki araçlar önerilir:
- iLO Redfish API
- HPE iLO PowerShell Cmdlet’leri
- HPE RESTful Interface Tool
Ayrıca firmware güncellemeleri öncesinde advisory kontrolü ve test ortamında doğrulama yapılması benzer risklerin tekrar yaşanmasını önler.
HPE iLO 6 firmware 1.54 doğrudan sistem çalışmasını bozmadan izleme ve görünürlük katmanında ciddi bir zafiyet oluşturmaktadır. Bu nedenle:
- Firmware geçmişi mutlaka kontrol edilmeli
- 1.54 çalışmış tüm sistemlerde düzeltici adımlar eksiksiz uygulanmalı
- İzleme platformlarında event akışı aktif olarak doğrulanmalıdır
Bu önlemler alınmadığı sürece donanım altyapısının sağlıklı izlendiğinden emin olmak mümkün değildir.
Kaynak : https://support.hpe.com/hpesc/public/docDisplay?docLocale=en_US&docId=a00136664en_us