设备信息:
IBM X3650 / Server Raid 8K / SCSI 硬盘 146.7G×6 Raid 5
基本情况:
2012.1.16 晚上6点左右,服务器自行关机,第二天早上发现,启动服务器后,停止在BIOS自检界面,报错
BIOS自检报错:
!!!CRITICAL ERROR:Memory retention failure,unflushed cache lost!!!Following Arrays have Missing or Rebuilding or Failed Menbers and are degraded/critical:Array#0-RAID-5Configuration Utility
处理过程:
1、 自检报错,Ctrl+A进入 Array 配置工具,提示是否接受变更,有 Accept 和 Reject两个选项,硬盘信息不可见
2、选择Reject,阵列信息不可见
3、按IBM客服提示重新插拔阵列卡及阵列电池,无效
3、“enable” 硬盘自检信息 的显示开关,硬盘信息在自检界面出现,但快速闪过,使用相机抓拍,发现提示 #4号物理盘提示 PFA “Y”
4、按IBM客服要求,尝试使用Support CD收集Raid的日志信息,按F12选择指定启动设备,但仍然停止在自检Raid报错处,【无意中】按下Enter键,系统提示“Enter have Pressed,Change Was Update”,然后Raid硬盘开始狂闪,#4物理盘 黄灯亮(这时应该是Raid错误提示在被用户确认后已经开始自动处理,正在Rebuilding #4号盘)。 系统同时进入启动盘选择界面,选择CD,进入Support界面,按步骤导出日志信息“Support.zip”。
5、这时在Support界面可以看到,系统已经开始Rebulding #4号盘,有进度提示,同时日志里有提示#4号盘有Bad Block。
6、经过接近2-3个小时的Rebulding
7、在Support CD界面运行24小时后发现 2#,3#号盘相继报 PFA错误,但状态仍然提示在 Online,联系IBM,怀疑Raid 的BIOS软件有BUG或兼容性冲突,关机,等待更换硬盘,准备换3块。
结论:
1、错误是由于#4盘出现Bad Block而引起,计划联系IBM更换
2、当硬盘出现Bad Block,Raid会检测到,并标记PFA错误,然后系统会自动关机(不确定),再次重启时,自检会提示“Following Arrays have Missing or Rebuilding or Failed Menbers and are degraded/critical”,必须接受这个改变,系统才会继续下一步自修复过程
后续处理:
1、IBM工程师到位,硬盘到位,尝试直接启动系统,成功。服务器运行的Vmware ESXi,首先进行数据备份(虚拟机导出),使用Trilead VM Explorer (VMX)导出来备份。(速度非常慢,100G需要5-10个小时,一开始用VMware vSphere Client直接下载更慢!其中一台虚拟机还不能导出,提示错误,根据资料,最后直接进入虚拟机的系统 Win2003,使用 Ghost备份全盘,备份过程中提示有坏扇区,估计是虚拟机磁盘文件有损坏了。因出现过意外中断和错误中断,前后反复,用了2天才完成数据备份)
2、直接使用Support CD进行 Fireware Update操作
3、关机,更换#4号盘,启动,提示Fatal Error:Controller kernel Panic,Error CODE:CF,不能启动,怀疑是新的硬盘有问题,另换了一块硬盘,启动,成功。
4、等待新硬盘 Rebuilding完成(黄灯熄灭),然后重启,重复步骤更换2#号盘
5、Rebuilding 完成,进入SupportCD,通过管理界面,Unfunc #3号盘,替换入第3步不能启动的新硬盘,然后系统自动开始Rebuilding。
6、Rebuilding 完成
7、至此3块硬盘更换完成,进入SupportCD界面检查,硬盘状态一切OK,但是阵列逻辑盘提示一个 警告 “Bad Strip”;其它状态一切OK。先到此为止吧,
附:IBM 保修电话 ,给我自己留的,4008101818 5188 【5300-4】
一篇提到类似 Bad Strip错误的文章:http://home.csjh.tcc.edu.tw/phpbbinf/viewtopic.php?t=4002&sid=3b0c27f26e991343667ceca1aa58fe03