Tech · Talk 云技术有话聊

文章编号:43724 资讯动态 2024-12-09 解决硬件故障Talk信服云Tech

4月14日,信服云可靠性技术专家Marshall在信服云《Tech Talk · 云技术有话聊》系列直播课上进行了《关键基础部件可靠性技术解析》的分享,详细介绍了 IT系统常见的物理故障对业务的可靠性的影响、如何运用软件定义解决硬件故障等内容。以下是他分享的内容摘要,想要了解更多可以点击阅读原文观看直播回放。

一、可靠性的定义和目标

可靠性是指系统不会意外地崩溃、重启甚至发生数据丢失,这意味着一个可靠的系统必须能够做到故障自修复,对于无法自修复的故障也尽可能进行隔离,保障系统其余部分正常运转。简而言之,可靠性的目标是缩短因故障(产品质量、外部部件、环境、人因等)造成的业务中断时间。

高可靠可以从三个层面理解:一,不出故障,系统可以一直正常运行,这种情况就需要提高硬件的研发质量。二,故障不影响业务。三,影响业务但能快速恢复。后两个层面可以通过“软件定义”的方式去规避硬件故障产生的业务中断。

谈到可靠性,首先要了解服务器的关键基础部件。从业界的服务器统计数据看,硬件部件的问题集中在内存、硬盘、cpu、主板、电源、网卡上。在云的环境当中,同一台服务器上可能运行了若干不同业务、不同场景的虚拟机,一旦物理设备崩溃,将会波及众多用户,同时也会对运营商自身造成巨大损失。而在现有的故障模式中,内存、硬盘故障是最高发和最严重故障。

关于内存和硬盘的故障,可以通过这两个案例来进一步了解。

案例一,内存UCE错误导致服务器系统反复宕机重启。服务器发生宕机重启,登录服务器的BMC管理界面,查询服务器的告警信息,出现如下告警:“2019-07-25 08:03:06 memory has a uncorrectable error.”后来,进一步查询硬件错误日志文件,发现DIMM020有大量内存CE错误和部分内存UCE错误,可知是因为DIMM020内存条发生UCE错误导致服务器宕机重启。

案例二,磁盘卡慢导致大数据集群故障。某大数据平台集群节点出现慢盘故障(系统每一秒执行一次iostat命令,监控磁盘I/O的系统指标,如果在60s内,svctm大于100ms的周期数大于30次则认为磁盘有问题,产生该告警)。先是ZOOKEEPER出现故障,后出现集群平衡状态异常。然后同一节点的其他服务也出现故障,最后整个节点所有服务全部故障,随后重启自动恢复。但是在3-10分钟之后该节点就会重复出现此情况。在未发现其他问题的情况下选择重启系统,业务中断时间十几分钟。

二、内存的可靠性技术

内存从外部结构看有PCB板、金手指、内存芯片、内存条固定卡缺口等。从内部结构看,包括存储体、存储单元Cell、存储阵列Bank、Chip(device)、Rank、DIMM、Channel等。

基于内存的结构,内存技术的提升(制程缩小和频率)容易带来更高的故障率。

(一)制程缩小带来的挑战

(1)光刻更容易受到衍射,聚焦等影响质量。

(2)外延生长(EPI)容易出现漏生长和外延生长间的短路等。

(3)蚀刻清洗等工艺的particle造成的影响加重。

(4)单die尺寸变小,单wafer die数量增加。

(5)未来TSV封装多die后段封装难度加大,失效率增加。

(二)频率提升带来的挑战

(1)高速信号时序margin更小,兼容性问题更突出。

(2)信号衰减更严重,DDR5增加DFE电路,设计更复杂。

(3)更高频率带来更高功耗,对PI的要求更高。

内存故障按照“故障能不能纠正”可以分为两类:CE(Correctable Error):可以纠正任意单比特错误、部分单颗粒多比特错误的统称;UE(Uncorrectable Error):不能纠正的错误统称。有一部分UE错误由于操作系统无法处理会导致系统宕机。

内存发生故障的原因有:内存单元能量泄漏 leakage、内存数据传输路径存在高阻抗、内存电压工作异常、内部时序异常、内部操作异常(如自刷新)、bit line/word line线路异常、地址解码线路异常、内存存在弱单元(可正常使用)、宇宙射线或放射性(没有造成永久损伤)导致的软失效(多次检测故障不复现)。

在处理故障时,会进行分层处理,业内有软件主导和和硬件主导两种思想。基于硬件主导的观点,会在器件选型的时候,选择一些质量比较高的硬件,另外,硬件本身具备一些“可靠性”,比如会自动地纠正一些比较简单的错误。

但硬件是没有办法做得非常可靠的,就需要软件去做一些工作。软件定义的方式会把有故障的内存区域隔离出来,让它不再使用,从而不会对业务产生影响。

CE(可以纠正的错误)发生后,如果不去处理它,会有可能变成不可纠正的UE错误。所以要防微杜渐,发生CE(可以纠正的错误)时,要进一步处理,隔离出可疑的故障。

信服云针对内存CE故障隔离方案设计思路

当内存硬件发生CE触发中断,看这些内存能否被隔离(不是被操作系统内核或外设使用),如果可以被隔离就加入白名单,对这些内存进行隔离。当使用内存隔离功能把发生故障的内存页切换到正常的内存页后,就把这个故障内存页隔离出来不再使用。

同时,这些故障发生的位置和次数等详细信息会进行告警,帮助运维人员对故障内存条进行更换。针对没有办法隔离的内存,在系统下次重启时根据重启之前记录的内存错误区域的信息,在系统没有使用这些内存时就把有问题的内存部分隔离出来,这样就保证系统使用的内存是没有问题的部分。

Tech Talk · 云技术有话聊 | 关键基础部件如何保障高可靠?

↑ 内存CE故障隔离方案总体架构

信服云实施这个方案之后,通过收集现网运营数据统计,平均隔离成功成功率为96.93%。相较于业界一般的方案的CE屏蔽,不能及时隔离CE以及出错后定位内存条的问题,信服云在方案上具有领先优势,并且在这个领域申请了5项专利。隔离方案在使用过程中针对CPU和内存资源开销小,并且效果明显。

针对内存UE故障,信服云的方案设计思路是解决内存UE的可恢复和提前预警问题,把一部分UE宕机降级为杀死对应应用程序,甚至只需隔离坏页,避免宕机来提升系统稳定性和可靠性。至少提升30%以上内存故障恢复能力,信服云的解决方案能够达到60% 内存UE故障恢复率,效果优于业界公开数据(业界普遍是UE故障恢复能覆盖50%),在实际POC测试场景中,优于业界的一般方案(如一般方案会宕机,无内存故障告警日志,无法定位故障内存所在的插槽位置)。

Tech Talk · 云技术有话聊 | 关键基础部件如何保障高可靠?

↑ 内存UE故障隔离方案总体架构

三、硬盘的可靠性技术

硬盘主要包括系统盘、缓存盘、数据盘。系统盘一般使用固态硬盘SSD,存放云平台系统软件和主机OS,以及相关的日志和配置。缓存盘一般使用固态硬盘SSD,利用SSD速度快的特性作为缓存盘作为IO读写提速的缓存层,用于存放用户业务经常被访问的数据,称之为热数据。数据盘一般使用机械硬盘HDD,容量高适合做数据盘则作为数据(如虚拟机的虚拟磁盘)最终存放的位置。

(1)硬盘TOP故障模式/分类:

卡死:硬盘IO暂时或者一直不响应;

卡慢:硬盘IO明显变慢或者卡顿;

坏道:硬盘逻辑单元(sector)损坏;

坏块:硬盘物理单元(block)损坏;

寿命不足:机械硬盘物理磨损,或者固态硬盘的闪存颗粒积极达到擦写次数。

当硬盘出现输入输出(Input Output,I/O)响应时间变长,或者卡住不返回的情况,会导致用户业务持续出现卡慢,甚至挂起,一块硬盘卡住甚至会导致系统的全部业务中断。

随着使用年限的增加,硬盘出现坏道、磁头退化或者其他问题的概率也在增加;从历史问题分布、以及业界硬盘可靠性故障曲线,都可以看到硬盘卡盘问题正成为影响系统稳定运行的最严重问题之一。

Tech Talk · 云技术有话聊 | 关键基础部件如何保障高可靠?

↑ 信服云卡慢盘解决方案总体架构

(2)信服云针对卡慢盘解决方案的思路:

1.针对磁盘卡慢故障模式复杂的问题,多维度检测确诊。采用了Linux通用的工具和信息,不依赖特定硬件工具,包括内核日志分析、smart信息分析、硬盘io监控数据分析等从多个维度精确定位故障硬盘。

2.针对卡慢盘处置时业务还是数据的抉择,制定了多级隔离算法。①轻度慢盘:不隔离,在页面告警通知用户;②严重慢盘:选择业务:对端异常时不隔离,页面告警通知用户;③卡盘:选择业务:第一次出现对端异常时不隔离,页面告警通知用户;④卡盘(频繁):选择数据:一个小时内出现3次异常,进行永久隔离。

3.在多级隔离算法的基础上进行阈值打磨。用大量真实卡慢盘进行测试以及用户侧采集的数据制定更加精准的卡慢检测阈值;使用故障注入工具进行阈值验证。

开启卡慢盘功能后的效果,可保障1min内触发隔离,虚拟机未出现HA,隔离后业务IO恢复稳定。

以上就是本次直播的主要内容。对云计算感兴趣的IT朋友可以关注“深信服科技”公众号回顾本期直播,了解更多云计算知识。

版权文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
h5小游戏下载

PC6游戏网为您提供几万个好玩的H5小游戏下载大全,是玩家最喜欢H5游戏下载大全网站和H5小游戏下载大全。

爱卡汽车

爱卡汽车网为您提供最新汽车报价、汽车图片、车型资料、汽车论坛、汽车资讯信息,XCAR-爱卡汽车网是中国领先的汽车主题社区,其中包括85个主流品牌车型俱乐部,国内32个省市和地区分会,36个特色讨论区。

德阳林才新材料厂,丙烯酸酯系列乳液,纺织助剂,环保型纸张(纸管)粘合剂,复合胶粘剂

德阳林才新材料厂是一家专门从事丙烯酸酯系列乳液、纺织助剂、环保型纸张(纸管)粘合剂、复合胶粘剂等集产品开发、生产与销售为一体的综合性企业。

长沙兴牧机械有限公司

长沙兴牧机械有限公司长沙兴牧机械有限公司坐落于美丽的烟花之城——浏阳,公司成立于2015年,注册资金1000万元,公司现有办公场所,焊接加工厂,水泥板加工厂,仓库等占地共约10000平方米;是一家集产品研发、设计加工、安装服务为一体的现代化制造企业。

聚财国际

聚财国际,自动回款,自动回款二维码,自动回款平台,信用卡自动回款,白条自动回款,花呗自动回款,无卡支付,新闻资讯,兼职赚钱

iP测漏

从中国和美国全方位显示查询自己的iP地址,检查网络连通性,查询上网的有效互联网IP地址

九迅软件

山东简单点电子商务有限公司专业开发小程序,以商家的营销和管理为目的,基于小程序的优势,帮助商家拓展互联网客群、提高经营效率,助力商家成功。九迅软件主要产品有:商城小程序,同城小程序,企业展示型小程序等。

天津津成电线电缆

天津津成电线电缆有限公司经过多年的发展,为企业积累了丰富的开发和生产电线电缆的经验和技术。公司主营产品:低烟无卤耐火电线电缆、低烟无卤阻燃电线电缆、分支电缆、高压交联电缆、架空电缆、聚氯乙烯绝缘电力电缆、聚氯乙烯绝缘电线、控制电缆、矿用电缆、特种电缆、同轴电缆、五类线、超五类线、六类线、橡套电缆等。欢迎广大客户电话咨询!

SANA豆乳网上商城

SANA豆乳网上商城--日本SANA豆乳经过近92年时间,成为日本开架式药妆品第一品牌.SANA豆乳专为女性设计,里面的大豆成分类似于女性的荷尔蒙,长期用于美容可以使肌肤光润、洁白。

大画家网

打造国内最大、最全的著名画家数据库和网上交流平台,包括画家(21637)、中国美协会员(22756)、美术馆(375)、画展(4398)、画廊(443)、书画资讯(7642)、作品交易(5895)、专家评论和画家吧等内容。

板链输送线

盐城市松源智能环保科技有限公司专业从事板链输送线,悬挂链输送线,地轨输送线,通用机械及零部件,涂装非标设备,除尘器等设备的研发,设计,制造,安装,设备齐全,检测手段完善,生产经验丰富,欢迎来电咨询.

扬州爱电影文化传媒有限公司

扬州爱电影传媒,是一家专业从事扬州企业宣传片拍摄及制作、航拍公司,专业化流程,保证了按时按质交片,专属您的企业宣传片拍摄。手机:扬州微电影、扬州广告片拍摄、扬州航拍等

全局底部横幅