Windows Failover CLuster Event ID: 1135-Cluster node was Removed From the Active Failover Cluster Membership.  Hatasının giderilmesi

Merhabalar, bu makalemde Windows Server 2019 işletim sisteminde Failover Cluster yapısında oluşan “Cluster node ‘NodeName’ was removed from the active failover cluster membership.” hatasının giderilmesine değineceğim.

Windows Server işletim sisteminde System Logs dizininde Event ID : 1135 ve Event ID : 1177 ile oluşan iki “Critical” hata ile karşılaşabilirsiniz. Bu iki event log içeriği aşağıdaki gibidir.

Event ID : 1135

Cluster node ‘Node-X’ was removed from the active failover cluster membership. The Cluster service on this node may have stopped. This could also be due to the node having lost communication with other active nodes in the failover cluster. Run the Validate a Configuration wizard to check your network configuration. If the condition persists, check for hardware or software errors related to the network adapters on this node. Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

Event ID : 1177

The Cluster service is shutting down because quorum was lost. This could be due to the loss of network connectivity between some or all nodes in the cluster, or a failover of the witness disk.  Run the Validate a Configuration wizard to check your network configuration. If the condition persists, check for hardware or software errors related to the network adapter. Also check for failures in any other network components to which the node is connected such as hubs, switches, or bridges.

Cluster ortamı hakkındaki bilgilerime dayanarak, Event ID 1135, bazı node’lar arasında kalp atışı (heartbeat) iletişiminin başarısız olduğunu gösterir. Çoğunlukla bu durum node’lar arasında ve quorum arasındaki ağ bağlantısı olabilir veya Cluster Nodeları arasında iletişimin anlık dahi olsa kesintisinden başarısız olabilir. Bu durumlar ile karşılaşılması durumunda event id 1177, cluster ‘daki bazı yada tüm node’lar arasındaki ağ bağlantısından veya Quorum diskinin / paylaşım alanının yük devretmesinden sonra yük devretmenin gerçekleştiğini belirtir.

Windows Failover Cluster ayarının yanı sıra Client sistemdeki TCP offloading ve birkaç özelliği devre dışı bırakılması gerekir. Bu işlem ağ gecikmelerine ve aralıklı ağ kesintilerine neden olabilirler. ilk önce Powershell üzerinden run-as-Administator ile çalıştırınız ve aşağıdaki komutları tüm node’larda çalıştırabilirsiniz. Bu komut ile Cluster geçikme değerleri önerilen bu değerler ile değiştirilecektir.

$cluster = Get-Cluster
$cluster.SameSubnetDelay=2000
$cluster.SameSubnetThreshold=10
$cluster.CrossSubnetThreshold=10
$cluster.CrossSubnetDelay=4000

Bu komutlar bütün node’lar üzerinden çalıştırıldıktan sonra tavsite edilen ek ağ değerleri için aşağıdaki komutları Powershell ortamında çalıştırınız.

Netsh int tcp set global rss=disabled
Netsh int tcp set global netdma=disabled
Netsh int tcp set global autotuninglevel=disabled
netsh interface teredo set state disabled
netsh int ipv4 set global taskoffload=disabled

Not : Ayrıca, tüm cluster nodelarında NIC sürücülerini, firmware ve teaming yazılımı (varsa) güncellenmesi gerekebilir. Network katmanı tarafındaki bu kontrollerden sonra Quorum diski /paylaşım alanının NTFS izinleri ve alan erişimlerini de kontrol etmeniz gerekecektir.