你的位置:首页 > 行业资讯 > 行业资讯

RAID5服务器磁盘阵列故障分析

2017/7/24 9:10:42      点击:

  这里说的RAID-5故障数据恢复,是指RAID-5逻辑盘丢失或不可访问。服务器RAID-5出现故障后在数据没有完全备份的情况下切记不可对离线硬盘就是强制上线或重建等操作,这会对服务器数据恢复是不可逆的,导致RAID-5故障的原因主要有以下几种:


RAID-5故障数据恢复


  RAID-5故障数据恢复

  一,故障的原因:

  1.RAID控制器出现物理故障

  RAID控制器如果出现物理故障,将不能被计算机识别,也就无法完成对RAID-5中各 个物理成员盘的控制,在这种情况下,通过RAID控制器虚拟出来的逻辑盘自然就不存在了。

  2.RAID信息出错

  RAID控制器将物理盘配置为RAID-5后,会生成一些参数,包括该RAID-5的盘序、 条带大小、左右结构情况、同步异步情况、RAID-5在每块物理盘中的起始地址等,还会记录有关该RA1D-5的相关信息,包括组成该RAID-5的物理盘数目、物理盘的容量大小等, 所有这些信息和参数就被称为RAID信息,也称为RAID元数据,它们会被保存到RAID 控制器中,有时候也会保存到RAID-5的成员盘中。

  RAID信息出错就是指该RAID-5的配置信息和参数出现错误,导致RAID程序不能正 确地组织管理RAID-5中的成员盘,从而导致RA1D-5逻辑盘丢失或不能访问。

  3.RAID-5成员盘出现物理故障

  RA1D-5可以允许其中一块成员盘离线而不影响数据的完整性,如果RAID-5中的某一 块成员盘出现物理故障,比如电路损坏、磁头损坏、固件损坏、出现坏扇区等,该成员盘 就不能正常使用,但剩下的成员盘可以利用异或运算计算出离线成员盘中的数据,所以 RAID-5还不会崩溃。

  如果系统管理员没有及时替换出现故障的成员盘,当再有一块成员盘出现故障离线后, RAID-5将彻底崩溃。

  4.人为误操作

  如果误将RAID-5中两块以上成员盘同时拔出,或者给RAID-5除尘时将成员盘拔出后 忘了原来的顺序,以及不小心删除了 RAID-5的配置信息等,都会造成RAID-5崩溃。

  5.RAID控制器的稳定性

  RAID-5的数据分布结构中有校验块的存在,当RAID-5中有成员盘离线时,算法将变 得更加复杂,RAID控制器将会工作在一个比较吃力的状态。而RAID控制器的负载太重便 会极大地增加数据读写时出现I/O滞留的可能性,从而导致更多成员盘离线,或者导致 RAID信息出错。

  二,RAID-5故障案例

  一台是在2000年购买的HP LH6000的服务器,4块18GB的硬盘做成RAID 5磁盘阵列,其阵列卡是NetRaid; 另一台是2006年购买的HP ProLian ML370服务器,4块146GB的硬盘做成RAID 5磁盘阵列,其阵列卡是Smart Array 642并带有热备份硬盘(Hot Spare)。两者操作系统都为Window 2000,数据库是Server 2000。

  HP LH6000的故障如下: 一块硬盘红灯闪亮,机器还在正常运行,但没有多久,系统就不能正常运行,这时才发现另一块硬盘的红灯也在闪亮。

  三,RAID-5故障数据恢复解决办法

  1. 启动服务器,自检至阵列时按Ctrl+M进入NetRaid管理程序。查看阵列信息,发现硬盘状态为Failed,运用修改配置将一硬盘强行设置成OnLine。重新启动服务器,在进入系统前的硬件自检时无效,启动失败。

  2. 启动服务器,自检至阵列时按Ctrl+M进入NetRaid管理程序。选择磁盘阵列,将原来OnLine挂起来的硬盘手工Fail掉,然后再把另一块Failed的硬盘手工设置成OnLine,重新启动服务器就可以进入系统了。

  3. 查看系统及数据库都运行正常后,再进阵列配置工具把Failed的硬盘手工设置成Rebuild,100%完成重建后再重启服务器,所有的阵列及系统都恢复原状了。

  笔者所在单位另一台运行ERP系统的服务器(HP ProLiant ML370),由4块146GB热插拔硬盘通过RAID卡(Smart array阵列卡)配置成一台具有RAID 5级的磁盘阵列。其中一块硬盘在运行过程中突然出现故障。服务器RAID 5自动启用热备份硬盘(Hot Spare),对损坏硬盘进行逻辑替代。整个硬盘的数据访问任务仍然完整地运行在原来的读写进程序列中,应用程序和数据库没有发生影响。

  通过HP自带的ACU工具查看硬盘状态进行检查,发现红灯示警的硬盘处于脱机状态。如果HP ProLiant服务器中的Raid 5有两块硬盘出现亮红灯时,表明系统已经崩溃,数据库也就不能访问,但系统不会自动关机。当第二块硬盘亮红灯后,用常规的手段是不能恢复数据的,只有付费找专业的第三方数据恢复公司恢复数据。

  因此,对惠普老型号HP LH6000系列服务器来说,阵列的设计方面与现在HP ProLiant系列服务器的阵列有很多不同。就操作方法看,HP LH6000服务器的阵列操作方法有很多可选项,包括阵列失败后可以重新删除阵列并重建等,初始化也是手工选择的。但是HP ProLiant系列服务器阵列的初始化是在配置阵列后自动在后台执行的,所以ProLiant系列服务器在阵列出错后是不能重配阵列的。

  HP LH6000服务器会因其他意外的原因导致阵列中的磁盘出现掉线现象,可让维护人员手工选择用Online或Offline、Rebuild等来恢复数据。但是现在的HP ProLiant系列服务器在阵列中不会再出现像老的服务器那样有磁盘掉线的现象,所以硬盘亮红灯的时候,这块硬盘基本上是损坏了需要更换。当然可以选择热插拔硬盘来重建(Rebuild),看硬盘还能不能再用一段时间。

  四,做好RAID-5技术后备

  从以上两个例子可以看出,同一品牌、不同系列的服务器因其内含技术的不同,其Raid 5磁盘故障的排除也是不同的。但经过重建(Rebuild)数据后,数据被拯救了,从中可以得出以下经验:

  我们认为任何先进的技术手段都不是万无一失的。如果要确保数据安全,就一定要做好备份工作,最好每天做一次数据库的异地备份。至少备用一块新硬盘。需要指出的是,加入阵列的硬盘必须大于或等于故障硬盘的容量。

  如果条件允许,推荐“RAID 5+热备盘”的阵列创建方案。这样在数据丢失前,我们有两次更换硬盘的机会。对于一般的应用,只用RAID 5即可,可以同时提供数据的存取性能、可靠性和最大的磁盘空间。

  管理员必须经常观察阵列的状态,包括查看磁盘阵列的黄色警告灯和管理软件里的驱动器状态。出现故障,及时排除。无论是什么级别的阵列,在排除故障前,都应做好数据备份。