IBM刀片服务器无法加电启动的故障诊断
适用机型:
所有BladeCenter; 所有BladeCenter H; 所有BladeCenter HS20; 所有BladeCenter HS21; 所有 BladeCenter HS40; 所有BladeCenter JS20; 所有BladeCenter JS21; 所有BladeCenter LS20; 所有BladeCenter LS21; 所有BladeCenter LS41; 所有BladeCenter T
故障现象:
一个或多个刀片中心机箱(型号为8677)中的刀片服务器无法加电启动。
解决方法:
一个刀片服务器无法正常加电启动可能有以下一些原因:
1、管理模块没有给刀片服务器启动的权限:
a、故障的刀片服务器或服务处理器。如果管理模块的事件日志中显示或者有"SP comm"或者有"kernel mode"的信息时,需要在继续进行之前解决掉这些错误。
b、电源不足。如果管理模块提示没有足够的电源来启动刀片服务器,检查电源,确认是否有足够的电源模块可用来启动刀片服务器。这个确认是对每个电源组的。
注意:可配置的电源管理的策略是对插槽中每个电源组的。
从最多的电源限制策略改为最少的限制策略,有三种策略可选:
"Redundancy without Performance Impact"是一种将电源限制固定在一个电源模块的输出功率上的电源管理策略。全部刀片服务器启动所允许的最大功率必须在所有时间内都在一个电源模块的输出功率范围内。因此,在当前的电源组中要有一个或者两个电源模块。
"Redundancy with Potential Performance Impact"是一种在电源需求量超过一个电源模块输出功率限制时仍旧可以允许添加额外的刀片服务器的电源管理策略。为了使刀片服务器在这种策略下能够正常工作,刀片服务器中的CPU必须能够自动降频,降频是一种允许CPU在一定情况下降低它的功率消耗的特性。
"Non-redundant"或者需求超标是一种允许电源负载共享一个电源组中的两个电源模块的电源管理策略,这也是对电源限制最小的电源管理策略。因此在这种策略下,如果一个电源组中的一个电源发生了故障,剩下的电源模块可能无法完成对电源需求的供应。从而,剩下的电源模块将可能会关闭除非刀片服务器能够减少它们对于电源的需求。
对于电源组的需求,不只是刀片服务器会有,管理模块和输入输出的模块也会有需求。
c、随着刀片的增多,对AC电源的需求会跨越电源组,安装在第7-14槽位的刀片会占用第二组电源组。检查刀片机箱前面或后面的LED,察看显示为一个圆圈中有个"i"的信息LED指示灯是否亮起。登陆进管理模块察看系统事件日志中的电源描述的状况,至少有一个电源必须安装在第二个电源组中。
d、如果一个刀片占用了6和7两个槽位,那么对于电源组1和2都是需要的(刀片服务器1-6是由第一个电源组供电,刀片服务器7-14是由第二个电源组供电)。尝试将这个刀片移到其他的槽位上并且查看它是否能够启动。如果这样问题解决了,那么这个问题是由于管理模块或服务处理器固件程序的缺陷造成的。升级管理模块和刀片服务处理器的微码。
e、无法与管理模块连通。一个RS485的连接错误可能会阻止一个刀片服务器的启动,查看管理模块的事件日志来获取详细信息。
2、故障或刀片上的信息指示灯:
a、主板;
b、系统电源配置。
3、电源指示灯持续快速的闪烁30秒以上:
a、检查在前面板上闪烁的指示灯并且记录下它闪烁的模式。如果它持续快速的闪烁30秒以上的时候,检查管理模块的事件日志中可能造成这种情况发生的原因,管理模块中的事件日志将会提供对于这个错误的详细信息。
b、如果当前没有错误,确认管理模块所安装的固件程序是否支持这个刀片。参考IBM支持网站上最新的管理模块固件程序。
检查管理模块固件程序的更新历史来确认是否支持所安装的刀片服务器。如果管理模块的固件程序不支持所安装的刀片服务器,那么通过IBM支持网站下载并升级最新的管理模块固件程序。
c、如果管理模块的固件程序不支持所安装的刀片服务器并且前面板上的指示灯持续快速的闪烁,那么登陆进管理模块并检查"system status"(系统状态)。如果在安装刀片服务器的插槽上有标示一个红色的"X",那么点击管理模块的"Event Log"(事件日志)来查看所记录的事件。
4、如果前面板没有指示灯亮起,那么可能的原因是:
a、插槽没有供电;
b、刀片服务器前面板的连接线被光通路隐蔽了;
c、刀片服务器出现故障;
d、刀片服务器的BMC出现故障;
e、前面板出现故障。
无法通过前面板的电源开关按钮启动刀片服务器,确认活动的指示灯是否也像加电的指示灯一样闪烁。登陆进管理模块并启动一个到这台刀片服务器的远程会话。
在刀片服务器的任务下,选择正确的刀片服务器并通过管理模块加电启动。切换回到远程会话的界面确认这台刀片服务器是否启动自检。
如果在前面板上没有指示灯亮起并且刀片正常工作,可能是前面板发生了硬件故障。那么可能需要重新订购正常的前面板部件。
5、在刀片服务器上没有显示VPD数据:
a、如果刀片服务器显示"no VPD data"并且只有一个管理模块安装在刀片机箱中,将管理模块从第一个插槽移动到第二个插槽。登陆进管理模块并确认刀片服务器都被发现到,先前观察到的闪烁的频率将会降低,通过现在的管理模块确认硬件VPD信息是否能被正常显示。
这个VPD数据或在刀片服务器系统状态下的一个固体绿色圆圈的缺失是确认发现程序是否发生的主要方法,刀片服务器在发生这种情况之前是可以启动的。
b、登陆进管理模块的网络界面,在"Monitors"(监视器)下选择"Firmware VPD"。在这里有个"Reload VPD"的选项可以对所有的或一个特定的刀片服务器使用。如果一个或多个刀片服务器可以通过向下的箭头选中,那么选择一个选项并按下"Reload VPD"按钮。这个选项可以允许刀片服务器的固件VPD信息被重新读取。