欢迎光临(广州)西安蓝擎公司,20年IBM/HP惠普/DELL戴尔/联想服务器数据恢复与服务器维修经验.
服务器维修
华为将服务器的硬件故障划分为两大类:基础硬件类故障和业务硬件类故障,基础类硬件是指电源模块、单板电源等,业务类硬件主要包括:处理器、内存、PCIe设备、以及硬盘,1、超温告警(进风口、CPU、内存、系统电源、硬盘、RAID卡)2、主板各电源(含电池)和板卡电源故障。3、风扇故障4、系统电源故障(AC

华为服务器维修

华为服务器故障码参考:
C0X: CPU X异常或故障;x为CPU编号。
XXX:  DIMM XXX异常或故障;XXX为内存编号。
A00: 入风口温度超过服务器工作温度范围
A0X: CPU X温度超过CPU工作温度范围;X为CPU编号。
P0X: 电源X异常或故障;X为电源模块编号。
F0X: 风扇X异常或故障;X为风扇模块编号。
b01:主板电源异常。
b02: RAID卡异常或故障。
L01:线缆未插稳或连接错误。
E01:CMOS电池异常。
HXX: XX号槽位硬盘异常或故障;XX为硬盘编号。

华为服务器故障诊断流程-基本原则:
1.、诊断故障时,应先排除外部的可能因素,如电源、中断、对接设备故障灯。
2、根据网络拓朴图,分析网络环境是否正常、互连设备是否发生故障,尽可能准确定位出是网络中哪个网元发生故障。
3、从告警信号流中可以看出,高速信号的告警经常会引起低速信号的告警。因此在故障诊断时,应先排除高速部分的故障。
4、分析告警时,首先分析高级别的告警,如紧急告警、严重告警,然后再分析低级别的告警,如轻微告警。

华为服务器故障检测与诊断:
服务器性能不断提升,服务器的组件也越来越多,服务器的单位空间的器件数量也与日俱增,再可靠的服务器系统也不可避免的会有故障的发生。

为了便于对系统所有的故障信息进行管理,按硬件所处的位置,华为将服务器的硬件故障划分为两大类:基础硬件类故障和业务硬件类故障
---基础类硬件故障:基础类硬件是指电源模块、单板电源等基础类硬件,基础类硬件与客户的上层业务无直接关联关系,故障检测的流程也一般不经过业务资源,由服务器的带外管理系统直接单独处理。
---业务类硬件故障:业务类硬件主要包括:处理器、内存、PCIe设备、以及硬盘,这些设备与客户的业务相关性很大,这类硬件故障大部分由FDM完成故障定位分析。

基础类硬件故障检测与诊断:
能检测的基础类硬件故障包括:
1、超温告警(进风口、CPU、内存、系统电源、硬盘、RAID卡)
2、主板各电源(含电池)和板卡电源故障。
3、风扇故障
4、系统电源故障(AC/DC输入丢失、高温、电源风扇故障、过压、过流)
5、总线故障(12C、IPMB、QPI/UPI)

业务类硬件故障检测与诊断:
一、CPU故障检测与诊断:
系统黑屏死机或是蓝屏重启通常是由CPU MCE故障引起,CPU MCE故障来源有两种,一种是CPU本身内部故障,另外一种是外部部件(MEM/PCIe Card)故障引起的;FDM智能分析每一种故障类型,在多个疑似故障源中精确定位故障部件;
FDM能够识别CPU内部各个模块的故障,常见导致系统黑屏死机的故障类型有以下几种:
---CPU内指令执行超时;
---CPU内部电源管理模块故障;
---QPI不可纠正故障;

常见导致蓝屏重启场景的故障类型有以下几种:
---Cache不可纠正故障;
---访问内存超时;

除了提供黑屏死机等即时故障诊断,FDM还提供预告警机制,针对各个部件的可纠正故障进行预告警专家系统分析,识别潜在风险隐患;
CPU预告警故障大致分以下几种:
---Cache可纠正故障;
---QPI可纠正故障


内存故障检测与诊断:
随着服务器内存容量的增大,内存发生错误的几率也增大了,内存错误基本分可纠正故障与不可纠正故障。
一旦内存发生不可纠正故障将导致系统重启,甚至黑屏死机,影响业务运行。如何在大量内存中识别出现故障的内存条,尽快恢复系统运行显得尤为重要,FDM可以对各种内存操作模式下的故障地址解析,精确定位故障Dimm条;
 导致系统黑屏死机/蓝屏重启场景的内存故障类型:
---内存不可纠正故障:
除了不可纠正内存故障,一旦发生可纠正错误会产生中断打断系统运行,大量产生可纠正故障将会形成风暴,FDM针对此种场景进行了抑制处理,避免造成系统假死或是降低系统性能;

---可纠正故障还可能会发生内存不可纠正故障的隐患,经过大量数据分析,FDM针对内存可纠正故障设计了一套预告警系统,分轻微、一般、严重三个级别智能识别内存风险隐患;
内存可纠正抑制及预告警的故障类型:
---内存可纠正故障;
---内存漏斗故障


存储故障检测与诊断
包括RAID控制器故障(内部故障、内存UCE技术非0、内存ECC计数超门限、NVRAM错误计数非0、BMC访问失败)、硬盘故障(故障、预故障、重构失败、盘在位但RAID 卡不能识别)、逻辑盘异常(offline、Degradd)、BBU电压低或故障。