CNAS-GL02：2014 能力验证结果的统计处理和能力评价指南.

由天下分享时间：2025/1/5 4:28:57 加入收藏我要投稿点赞

CNAS-GL02：2014 第 5 页共 20 页

e) 用于确定能力评定标准差或其它评定准则的程序； f) 用于识别和（或）处理离群值的程序； g) 只要适用，对统计分析中剔除值的评价程序； h) 只要适当，与设计相符的目标和能力验证轮次的频率。

4.2.2 在缺少统计设计所需的可靠信息时，可通过开展先期实验室间比对来获得。

4.3指定值及其不确定度的确定

4.3.1 指定值的确定有多种方法，以下列出最常用的方法。在大多数情况下，按照以下次序，指定值的不确定度逐渐增大。

a）已知值 —— 根据特定能力验证物品配方（如制造或稀释）确定的结果； b）有证参考值 —— 根据定义的检测或测量方法确定（针对定量检测）； c）参考值 —— 根据对能力验证物品和可溯源到国家标准或国际标准的标准物质/标准样品或参考标准的并行分析、测量或比对来确定；

d）由专家参加者确定的公议值 —— 专家参加者（某些情况下可能是参考实验室）应当具有可证实的测定被测量的能力，并使用已确认的、有较高准确度的方法，且该方法与常用方法有可比性；

e）由参加者确定的公议值 —— 使用GB/T 28043和IUPAC国际协议等给出的统计方法，并考虑离群值的影响。例如，以参加者结果的稳健平均值、中位值（也称为中位数）等作为指定值。附录A给出了由参加者结果确定指定值的常用稳健统计方法。 4.3.2 对上述每类指定值的不确定度，可参照GB/T 28043等所描述的方法进行评定。此外，ISO/IEC 指南 98-3中给出了确定不确定度的其它信息。

4.3.3 指定值的确定应确保公平地评价参加者，并尽量使检测或测量方法间吻合一致。只要可能，应通过选择共同的比对小组以及使用共同的指定值达到这一目的。 4.3.4 对定性数据[也称为“分类的”或“定名的”值]或半定量值[也称为“顺序的”值]，其指定值通常需要由专家进行判断或由制造过程确定。某些情况下，可使用大多数参加者的结果（预先确定的比例，如80%或更高）来确定公议值。该比例应基于能力验证计划的目标和参加者的能力和经验水平来确定。 4.3.5 离群值可按下列方法进行统计处理：

a）明显错误的结果，如单位错误、小数点错误、计算错误或者错报为其他能力验证物品的结果，应从数据集中剔除，单独处理。这些结果不再计入离群值检验或稳健统计分析。明显错误的结果应由专家进行识别和判断。

b）当使用参加者的结果确定指定值时，应使用适当的统计方法使离群值的影响降到最低，即可以使用稳健统计方法或计算前剔除离群值。

c）如果某结果作为离群值被剔除，则仅在计算总计统计量时剔除该值。但这些结果仍应当在能力验证计划中予以评价，并进行适当能力评定。 4.3.6 需考虑的其他事项

2014年09月15日发布 2014年09月15日实施

CNAS-GL02：2014 第 6 页共 20 页

a）理想情况下，如果指定值由参加者公议确定，应当有确定该指定值正确度和检查数据分布的程序。例如，可采用将指定值与一个具备专业能力的实验室得到的参考值进行比较等方法确定指定值的正确度。

通常，正态分布是许多数据统计处理的基础。正态分布的特点是单峰性、对称性、有界性和抵偿性。作为一个能力验证计划的结果，由于参加者的测试方法、测试条件往往各不相同，而且能力验证结果的数量也是有限的，所以在许多情况下能力验证的结果呈偏态分布。对能力验证的结果只要求近似正态分布，尽可能对称，但分布应当是单峰的，如果分布中出现双峰或多峰，则表明参加者之间存在群体性的系统偏差，这时应研究其原因，并采取相应的措施。例如，可能是由于使用了产生不同结果的两种检测方法造成的双峰分布。在这种情况下，应对两种方法的数据进行分离，然后对每一种方法的数据分别进行统计分析。数据直方图或核(Kernel)密度图可以显示结果的分布情况。

b）应当有依据不确定度来判断指定值是否可接受的准则。在GB/T 28043和IUPAC国际协议中给出了该准则，该准则是基于限定指定值不确定度对能力评定的影响而建立的，即：准则限定了由于指定值的不确定度而使参加者得到一个不可接受的评估结果的可能性。

4.4 能力统计量的计算 4.4.1 定量结果

4.4.1.1 能力验证结果通常需要转化为能力统计量，以便进行解释和与其他确定的目标作比较。其目的是依据能力评定准则来度量与指定值的偏离。所用统计方法可能从不做任何处理到使用复杂的统计变换。

注：“能力统计量”也称为“性能统计量”。

4.4.1.2 能力统计量对参加者应是有意义的。因此，统计量应适合于相关检测，并在某特定领域得到认同或被视为惯例。

4.4.1.3 按照对参加者结果转化由简至繁的顺序,定量结果的常用统计量如下：

a）差值D，由（1）式计算：

D?x?X ???????（1）

式中：

x为参加者结果；

X为指定值。

b）百分相对差D%，由（2）式计算：

D%??x?X?X?100 ???????（2）

c）z比分数，由（3）式计算：

2014年09月15日发布 2014年09月15日实施

CNAS-GL02：2014 第 7 页共 20 页

z?x?X ???????（3） ??式中：

?为能力评定标准差。??可由以下方法确定： ?—— 与能力评价的目标和目的相符，由专家判定或法规规定（规定值）； —— 根据以前轮次的能力验证得到的估计值或由经验得到的预期值（经验值）； —— 由统计模型得到的估计值（一般模型）； —— 由精密度试验得到的结果；

—— 由参加者结果得到的稳健标准差、标准化四分位距、传统标准差等。具体方法参见附录A和GB/T 28043等。 d）z'比分数，由式（4）计算：

式中：

2?2?uX z'?(x?X)/? ???????（4）

uX为指定值的标准不确定度。

注1：当指定值的确定未用到参加者的结果时，可用式（4）来计算。注2：z'比分数有时也称作z'分数或z'值。

e）?比分数，由式（5）计算，除了使用标准不确定度代替扩展不确定度外，计算与En值类似。

??式中：

x?X2ux2?uX ???????（5）

ux为参加者结果的合成标准不确定度。注1：仅当x和X不相关时，式（5）才成立。注2：?比分数有时也称作?分数或?值。 f）En值，由式（6）计算：

En?x?XU?U2x2X ???????（6）

式中：

Ux为参加者结果的扩展不确定度； UX为指定值的扩展不确定度； Ux和UX的包含因子k=2。

注1：En值有时也称作En数。

注2：仅当x和X不相关时，式（6）成立。

对于校准能力验证计划，常用En值评价参加者结果。

2014年09月15日发布 2014年09月15日实施

CNAS-GL02：2014 第 8 页共 20 页

g）其他的统计方法，可参见GB/T 28043和IUPAC国际协议等。 4.4.1.4 需要考虑的其它事项

a）通过参加者结果与指定值之差完全可以确定参加者的能力，对于参加者也是最容易理解的。差值(x?X)也称为“实验室偏倚的估计值”。

b）百分相对差不依赖于指定值的大小，参加者也很容易理解。

c）对于高度分散或者偏态的结果、顺序响应量、数量有限的不同响应量，百分位数是有效的。但该方法仍应慎用。

d）根据检测的特性，优先或需要使用变换结果。例如，稀释的结果呈现几何尺度，需做对数变换。

?由公议（参加者结果）确定，??的值应可靠，即，基于足够多次的观测e）如果?以降低离群值的影响。

f）如果能力统计量（例如En值和?比分数）需使用参加者报告的测量不确定度的估计值时，只有所有参加者采用一致的方法（比如按照ISO/IEC指南98-3的原则）评估不确定度，该方法才有意义。 4.4.2 定性结果和半定量结果

4.4.2.1 对于定性结果和半定量结果，如果应用统计方法，必须与结果的特性相适应。对定性数据[也称之为“分类”数据]，可采用直接将参加者结果与指定值进行比较的技术。如果两者相同，则结果是可接受的；如果不相同，可由专家判断参加者结果是否满足预期用途。某些情况下，可审查参加者的结果，并确定该能力验证物品不适于评估，或者指定值不正确。

4.4.2.2 用于定性数据的技术也适用于半定量结果[也称为“顺序”结果]。顺序结果包括很多类型，例如，响应为等级或排序、感官评价，或化学反应强度（如1+，2+，3+，等）。有时，这些响应结果由数字表示，如，1=差，2=不满意，3=满意，4=良好，5=优秀。

4.4.2.3 对顺序数据，即使结果以数值表示,计算常规的总计统计量是不合适的。因为这些数值并不是基于区间尺度，也就是说，客观意义上，1和2间的差可能与3和4间的差并不相同，因而不能解释其平均值和标准差的意义。因此，对半定量结果使用诸如z比分数的统计量是不合适的。特定的统计量，如秩或顺序统计量，对顺序数据是可以使用的。

4.4.2.4 描述出（或作图表示）所有参加者结果的分布，以及每一类结果的数量或百分比，并给出总计统计量（如众数和极差）是适当的。根据与指定值的接近程度评价结果的可接受性也是适当的，例如，结果落在指定值之上或之下一个数值范围内即为可接受的。某些情况下，利用百分位数评估能力也是合适的，如，可以规定距离众数或指定值最远的5%的结果是不可接受的。这些规则应根据能力验证计划的目的来确定。

2014年09月15日发布 2014年09月15日实施

CNAS-GL02：2014 第 9 页共 20 页

4.4.3 合成的能力比分数

当对一个特定被测量使用了一个以上能力验证物品或有一组相关被测量时，可根据一轮能力验证计划中两个或两个以上的结果评定参加者的能力。这样可以对参加者能力进行全面评定。采用图方法，如尧敦（Youden）图或曼德尔（Mandel's）h统计量图等，也是解释参加者能力的有效工具（参见GB/T 28043）。

尽量不使用能力比分数的平均值，因为这将掩盖对一个或多个能力验证物品的较差的检测或测量能力，而这正是需要调查的。最常用的合成的能力比分数是可接受结果的数量(或百分比)。

4.5 能力评定 4.5.1 初始能力

4.5.1.1应根据能力度量方式制定能力评定准则，用于能力评定的方式如下：

a）专家公议，由顾问组或其他有资格的专家直接确定报告结果是否与预期目标相符合；专家达成一致是评估定性测试结果的典型方法。

b）与目标的符合性，根据方法性能指标和参加者的操作水平等预先确定准则。 c）用统计方法确定比分数，其准则应当适用于每个比分数；比分数的常用例子如下：

1）z比分数、z'比分数和?比分数（简单起见，示例中仅给出了z比分数，对z'比分数和?比分数也适用）；

—— |z|?2 表明“满意”，无需采取进一步措施； —— 2?|z|?3 表明“有问题”，产生警戒信号； —— |z|?3 表明“不满意”，产生措施信号。 2）对En值：

—— |En|?1 表明“满意”，无需采取进一步措施； —— |En|?1 表明“不满意”，产生措施信号。