通信世界网消息(CWW)随着云化转型的深入,在网运行服务器数量在不断增加,服务器死机和重启成为运维中难以避免的现象。有没有一种功能或者工具能够记录死机、重启前一刻发生了什么,并能够分析服务器各种异常参数?这里不得不提一种叫“黑匣子”的技术。
“黑匣子”是电子飞行记录仪的俗称,用于记录飞机飞行和性能参数的仪器。飞行记录仪记录的信息可用于飞行事故分析,人们可根据飞机坠毁前记录的数据和话音记录,经处理后送入一种飞行模拟器,重现事故的过程,形象地分析事故原因。
服务器上有一个独立的BMC系统(BaseboardManagement Controller),通俗来讲,BMC是整个服务器单板的大管家,从服务器上电那一刻,它所有部件均由BMC来负责和管理。BMC主要用于对服务器各个部件(CPU、内存、硬盘、风扇、机框等)的温度、电压等健康状态进行检测,同时根据各个温度采集点情况实时调整风扇转速避免服务器产生过温、总体功耗过高的情况发生。如果单板部件出现任何异常则通过SNMP协议、SMTP协议、Redfish协议等多种业界通用规范将信息及时上报给上层网管,以便运维人员及时处理,保障业务无损。BMC主要用于采集单个服务器上的信息,同时将信息提供给上层运维网管软件,一般情况下BMC软件上报的消息中会指明哪个部件产生故障以及处理建议等。
服务器的“黑匣子”功能是BMC系统不可或缺的一部分,它起到了与飞机“黑匣子”同样的作用。系统正常运作时,“黑匣子”记录着系统的各种运行参数;当BMC检测到致命故障或者系统异常状态,“黑匣子”将记录下发生故障时的系统状态。故障分析人员通过“黑匣子”中记录的数据,可快速定位故障发生的那一刻,并分析异常产生的根本原因。虽然通过系统的崩溃日志等其他手段也可以进行故障分析和定位,但是均比“黑匣子”功能费时费力,“黑匣子”可简单而直接的记录底层硬件数据,可更加快速地解决硬件故障引发的系统问题。
市面上的“黑匣子”功能有带内管理和带外管理两种方式,带外管理(out-of-band)是基于硬件的一种管理方式,使用专用硬件模块或特殊的远程管理卡提供管理接口,通过专用的数据通道对设备进行远程维护和管理,完全独立于设备操作系统之外,甚至可以在设备关机状态下进行远程监测与管理。带内管理(in-band)需要在OS层安装原厂或者第三方驱动,对于客户数据敏感的应用,如果通过带内管理需要对OS层的驱动进行全方位测试和验证,以防止驱动程序的漏洞被利用,造成数据泄露。

中兴通讯全系列服务器产品均搭载“黑匣子”功能,并提供一键故障解析工具,可在系统出错的第一时间分析故障根本原因,对于可纠正级的轻微错误,比如CPU QPI总线CRC错误,PCIE总线错误,根据大量的外场故障数据进行分析,总结规律阈值,事前通知用户,可以有效地提前预判故障。同时,中兴通讯的“黑匣子”功能和一键解析工具均通过带外方式进行数据采集,可有效避免用户数据泄露的风险。
未来,中兴通讯将秉持开放合作的理念,坚持自主创新之路,以核心技术为基石,突破传统生态,持续推动服务器产品生态的繁荣发展。
来源:通信世界全媒体