说到MTBF预计,目前业内用得较多的都是SR332 Issue3这个标准。关于这个标准,先说一下它的发展由来,这里谢谢Mosch之前写的一篇博客,链接如下:http://www.mosch.cn/index.php/2014/11/telcordia/
摘取Mosch博客部分内容简写如下:
该预计标准模型由AT&T的Bell(贝尔)实验室参考MIL-HDBK-217的方程式演变发展而来应用在商业产品上;
该预计模型从1985年出版的Bellcore Issue1 持续更新至97年的 Issue 6如下:
Bellcore TR-332 (TR-NWT-000332), Issue 1. February 1985:
Bellcore TR-332 (TR-NWT-000332), Issue 2. August 1989
Bellcore TR-332 (TR-NWT-000332), Issue 3. September 1990
Bellcore TR-332 (TR-NWT-000332), Issue 4. September 1991
Bellcore TR-332 (TR-NWT-000332), Issue 5. December 1995
Bellcore TR-332 (TR-NWT-000332), Issue 6. December 1997
1998年始Bell Communication Research被SAIC(Science Applications International Corporation)收购更名为Telcordia Technologies,后将Bellcore原来的电子设备可靠性预计程序改名为Telcodia Technologies的特殊报告 ,并发展至现在的Telcordia SR-332, Issue 3.
Telcordia SR-332, Issue 1. May 2001
Telcordia SR-332, Issue 2. September 2006
Telcordia SR-332, Issue 3. January 2011
PS:据查Telcordia官网已经有2016版本的Issue 4,但是很多公司还未正式启用~关于该标准文档有哪些更新目前未知,而且目前使用的软件如Windchill的计算方法及数据库都是基于Issue 3的标准,如果谁有更新的内容,欢迎告知~
好了,故事到此结束~~回到实际计算案例分析
这次主要分享下SR332 ISSUE3里Method I: Part Count Method (零器件累加法)的实际计算过程;
步骤一:单个元器件的稳态失效率计算,公式及参数意义如下:注意这里和SR332标准公式(3-1)写法不太一样,但是表示的含义一样;
如上对逐个参数进行分析:
λGi—-指元器件的基础失效率,通过SR332标准里的表格可以查询,例如下图所示,普通定值电容的基础失效率λG=0.1FIT;
πQ—-指元器件质量等级,SR332 ISSUE3共分为四个质量等级,Level 0, Level I,Level II,Level III; 每个质量等级对应的πQ值如下:
Level 0—-πQ=6;
Level I—–πQ=3;
Level II—-πQ=1;
Level III—πQ=0.8;
那如何区分元器件采用哪个质量等级呢?参考如下截图:
简单理解就是
Level 0指一些重工或者在一些小的山寨电子市场买的元器件;
Level I指元器件虽然没有批量质量管控以及合格鉴定,但是能兼容产品的设计及生产,而且一旦出现问题能有一个有效的反馈改正机制;
Level II指选取的元器件供应商为合格供应商,有批量验证,质量管控,符合批量采购要求,品质有保障;
Level III指同时满足Level I II的要求,同时要保证这些元器件为100%筛选验证的元器件,
通过如上分析:商业产品绝大部分采用Level II质量等级的元器件,Level III是少之又少,简单一条100%筛选验证就基本没有几家供应商能达到。Level 0 和Level 1研发量产时基本不会选用;
πS—-指电应力等级,其值有两种方法可以得出:
1:可以通过查询SR332标准里的表得出;例如上面提及的普通定值电容,我们再把之前的截图再放一次如下图,注意图中蓝色框框部分,这里指代该普通定值电容电应力匹配等级为H,通过查询SR332 ISSUE3 Table 9-2如下第二张图可见H列对应的不同电应力等级下的πS值;例如50%电应力等级时,该电容的πS=1;40%电应力等级时对应的πS=0.7;有人可能会问那这里40%,50%说的电应力指啥?这里解释下,这里会用到电路分析,例如电容额定电压为25V,但是实际电路中两边电压为12V,则电应力为12/25=48%;也就是降额的一些知识;具体哪种元器件考虑哪种电应力,SR332标准也做了说明,见下面第三张图Table 9-3。
2:如果表中无对应值,例如上面我们算出电应力48%,则可以通过公式πS=e^[m(p1-p)]计算得出;
这里m为匹配参数,如下截图Table 9-2有对应值,每个元器件都有对应的匹配等级,例如上面我们提及的普通定值电容对应的匹配电应力等级为H,则其匹配参数m=4.1,
p1为操作应力比,也就是电应力例如上面提到的电容额定电压25V,实际电路中12V,则操作应力比为48%;
p指参考应力,值为50%;
则48%电应力时该电容πS=e^[4.1(0.48-0.5)]=0.9213
注意:对于K匹配曲线的元器件,当操作应力P0
πT—-指工作温度等级,亦有两种方法得出其值:
1:可以通过查询SR332标准里的表得出;继续用上面提及的普通定值电容,我们再把之前的截图再放一次如下图,注意图中黄色框框部分,这里指代该普通定值电容温度应力匹配等级为“1”,通过查询SR332 ISSUE3 Table 9-1如下第二张图可见“1”列对应的不同温度等级下的πT值;例如40度等级时,该电容的πT=1;30度时该电容对应的πT=0.9;
2:如果表中无对应值,还是使用上面电容,例如工作温度25度时,则可以通过公式πT=e^[(Ea/k)(1/T-1/T1)]计算得出;
这里T为参考温度40度,注意这里需换算为开尔文温度T=273+40=313;
T1为工作温度,例如25度时T1=273+25=298;
Ea为激活能;通过查询下面第一张图Table 9-1可知“1”对应的Ea为0.05;
k为波兹曼常数定值8.62*10^(-5)eV/K;
则25度时该电容πT=e^[(Ea/k)(1/T-1/T1)]=0.9109
到这里,本篇第一张图片提及的公式λssi=λGi*πQi*πSi*πTi里的参数都解释完毕,现在举一个实际案例如下:(Q1元器件级—-》Q2主板单元级—–》系统级)
Q1:依旧选择上面分析时的普通定值电容,假设该电容质量等级为Level II,实际电路中电压应力80%,周边环境温度为40度,求该电容此时的FIT值;
解:把之前的截图这里再放一次如下:
由上图得知该电容基础失效率λG=0.1Fit;
质量等级II,则πQ=1;
该电容电应力对应曲线为H,且电应力为80%,查表Table 9-2可得πs=3.4;
该电容温度应力对应曲线为“1” ,且环境温度为40度,查表Table9-1可得πT=1则lSSi=λG*πQ*πs*πT=0.1*1*3.4*1=0.34Fit;
上面分析了单个元器件的失效率的计算,那一块主板单元上有那么多元器件怎么计算呢?
步骤二:单元的稳态失效率计算,公式及参数意义如下:注意这里和SR332标准公式(5-1)写法不太一样,但是表示的含义一样;
如上对这个公式进行分析,举个例子简单讲,如果一个板子上有10个相同种类电容,每个电容失效率为lSS1,每个20个相同种类电阻,每个电阻失效率为lSS2,那么该板子的失效率为lSS=πE(10*lSS1+20*lSS1),所以我们只要知道πE即可,这里πE为环境等级,也就是这个板子所对应的产品安装在什么环境下,是普通的办公室或者机房呢?还是其他一些靠近铁道什么的地方,具体每个安装环境下对应的选择标准及参考值如下截图(安装环境等级有GB,GL,GF,GM,AC,SC6个等级,篇幅关系未放置所有等级截图):
例如产品安装在普通的办公室里,那自然可选GB等级,πE=1;
Q2:依旧选择上面分析时的普通定值电容做板级拓展,假设一个主板上有该电容1000颗,这些电容的质量等级都为Level II,电压应力都为80%,环境温度为40度,这个板子安装在一个服务器上,该服务器就安装在办公室内,求该板子的MTBF值?
解:由Q1计算结果可得单颗普通电容的失效率lSSi=λG*πQ*πs*πT=0.1*1*3.4*1=0.34Fit
因为该服务器安装在办公室内,可以选择环境等级Ground, Fixed, Controlled, GB等级此时πE=1
则lSS=πE*1000*lSSi=1*1000*0.34=340Fit
MTBF=10^9/lSS=10^9/340=2,941,176 hours;
Q3拓展:之前分析了元器件级别到主板单元级的计算案例,那如果是系统呢?一个系统通常含有好多块主板,每块主板之间实现的方式通常有串联,并联,以及其他冗余模型如(k-r)/k冗余模型;如何计算系统的MTBF呢?
这里通常我们会用RBD(Reliability Block Diagram)可靠性框图分析法,举一个服务器例子如下截图,简单介绍如下(注意请别纠结图中一些组件的描述如ESM,MID-PLANE什么的…):
图中可以看出,该服务器分为4个部分串联组成,每个部分解释如下:
Block 1:2块ESM板并联,只要有一块工作,Block 1即能工作;
Block 2:两个ESM板均接在一块Midplane上;也就是Midplane为串联接入;
Block 3:2个PSU并联,只要有一个工作,Block 3即能工作;
Block 4:5/6风扇冗余,系统一共6个风扇,只要有5个风扇正常工作,则系统散热正常;
计算该系统的MTBF值(假设部件损坏不更换)
这里需引入常用的几个计算公式如下截图:
通过如上分析可见该服务器用到了第一个串联模型和第二个(k-r)/k冗余模型,代入公式得4个Block的FITs值分别计算如下(上面RBD框图中的FR指代该主板单个失效率):
λB1≈1600/(1/1+1/2)=1066.667 Fit;
λB2=200 Fit;
λB3≈2000/(1/1+1/2)=1333.333 Fit;
λB4≈2500/(1/5+1/6)=6818.182 Fit;
λ总=λB1+λB2+λB3+λB4=9418.182 Fit
则该服务器系统MTBF=10^9/ λ总=106,177.6 小时
如上,SR332 ISSUE 3,Method I零器件计数法的分析到这里就分享完了,可能有人会有疑问:通常在计算时会引入置信度的概念,那这样该如何计算?这个在之前的一篇分享中有介绍过,如果有疑问的可以看下面链接:
对了,现在很多公司都有软件来计算MTBF,例如Windchill 和Reliasoft软件等,这些软件还是比较贵的,如果公司预算有限,自己熟练SR332 Issue 3标准,也可以通过Excel自己建立一个库来进行计算,计算结果完全一致,因为需要的公式在标准里都有了,原理都一样,个人已经尝试过,只是前期搭建起来会花些功夫~
如上,个人分享,如有不同观点欢迎交流~~
原文链接:https://cloud.tencent.com/developer/news/115714