选择显著性水平为5%,计算出自由度为df=12。大多卡方表按备择步骤设计,可以查询a或l-a,读取临界值。对a =0. 05和df=12来说,χ2临界值为21.026。如果检验统计量大于它就拒绝零假设。
用电子制表软件计算每一单元的E。E代表着零假设为真时的期望值,也就是每个地区的购买可能性分布和整体分布一样时的期望值。接着计算每单元的(O-E)2÷E,加起来得到检验统计量χ
2
=22. 53,比临界值21. 026大,所以拒绝零假设。购买可能性分布随区域而不同。
这个检验等同于检验两个变量是否独立。结果表明地理区域和购买可能性两个变量不独立。已知顾客所在的地区就能预测他是否更有可能购买新生产线。 ? 另一示例:卡方检验2
相同的零售商计划改变产品目录的格式和风格并想了解新的格式是否会有效提高订单。作为测试,他们随机挑选顾客送出去200 000本新春装目录册,另外1 800 000本目录册是传统版本。参考关联表例子,用图表5. 18的2×2的关联表来组织数据。
卡方检验比较两者的比例。零假设是“顾客从测试目录和从标准目录购买的比例相同。”
选用5%的显著性水平。比较比例,自由度就是l。a=0. 05和df=1时,χ2临界值为3. 841,检验统计量χ2=278。因此拒绝零假设,结论是顾客从新格式目录和从旧目录购买的比例显著不同。 ? 注意事项
·和许多学科一样,统计学有自己专门的语言表达常用的概念。以下是在实施步骤中常用的定义术语:
检验:一种统计检验,如z检验、t检验、F检验或卡方检验。要知道选用哪种检验是实施步骤中最难的一部分,取决于数据的种类以及想从数据中得出结论的种类。 假设:陈述一事实,由检验证明或反驳。
零假设,H0:是想检验的假没,数据是随机的。称为“零”是因为通常(不总是)零假设意味着两组数据中或从数据中计算的参数与给定的值之间没有差异。
备择假设,H。:如果零假设为假,备择假设肯定为真。通常备择假设暗含数据来自真实的影响而非随机的。
统计量:表征样本数据某些方面的变量。平均数、均值、方差和比例都是统计量。
检验统计量:用来检验零假设的统计量。对每种检验都有一个公式表达适当的检验统计量。这样做如果零假设是真(数据随机),统计量就来自一有名分布,如z检验的正态分布。
双尾、右尾、左尾:描述检验是否涉及频率分布的双侧(双尾)或只是单侧。如果备择假设表达式中包合≠(不等于),需要双尾检验。如果包含<(小于)需要左尾检差验,包含>(大于),需要右尾检验。卡方检验通常是双尾检验。
P值:检验统计量在已知分布下随机发生的概率。P值等于曲线下检验统计量以外的那个区域(见图表5.99)。P值越小,越能肯定结果是真的,不只是随机的。由于各种检验分布都很有名,这些概率能在表中或计算机程序中得到。
显著性水平,a:能确定结果是真的以前反映我们能多大程度确信结果不是随机产生的数值。通常取1%、5%、10%( a =0.01、0.05、0.10)。例如:单侧检验a =0.05,只要随机得到的结果小于5%即P<0.05则可断定结果为真。
临界值:概率正好等于a时的检验统计量的值。曲线尾部临界值以外的区域面积等于a。对双尾检验来说有两个临界值(见图表5. 100),每一尾部一个,每个临界值以外的区域都等于a/2。临界值由表或计算机程序确定,记为±za或±za/2。
拒绝域:如果检验统计量落在这个区域,零假设就被拒绝的频率分布区域。对左尾检验来说,这些值位于小于临界值的分布曲线尾部。对右尾检验而言,则位于大于临界值的曲线尾部。双尾检验拒绝域包含两头。 置信水平,(1-a)。
置信区间:事件随机发生时以很大概率包含检验统计量的区间范围。拒绝域是置信区间以外的区域。显著水平、置信水平、置信区间之间的关系为:a=0.05,置信水平等于95%,则认为落在95%置信区间的值是最有可能单独地随机发生的,不能拒绝零假设。置信区间的定义讲究技巧。95%置信区间不是分布所有值的95%落在这一区间而是当一个值属于这个分布时,基于样本数据建立的所有区间95%地包含这个值。
·假设检验中,观察检验分布曲线,计算位于图形水平轴某处的检验统计量。如果曲线下检验统计量以外的区域P足够小(小于显著水平a),则此统计检验量可能就不服从这个分布。 ·因为曲线是频率分布,曲线任何部分以下的区域就是事件发生可能性的度量,标在水平轴上。这就是在曲线下区域能找到a和P值的原因。
·由于假设检验涉及样本和概率,所以有可能得到错误的结论。第一类错误就是零假设为真而被拒绝(见图表5. 101)。第一类错误的概率是:显著性水平a。在第二个例子中,有5%的可能性就是区域间分布差异确实是随机的。第二类错误是零假设为假而没有被拒绝。如果食品杂货店真的在苹果箱的重量上被欺骗则第二类错误发生。第二类错误
的概率β的计算更复杂,超出本书讨论范围。不幸的是,“a越小,β越大。但是给定a,增加
样本容量,β将变小。
·因为第二类错误概率的存在,当零假设没被拒绝时,不能得出备择假设是错的结论,只能说数据没有提供足够的证据支持备择假设。
·很多网站上有计算器,可以计算检验统计量和检验分布值。输人数据,计算器计算检验统计量、概率和临界值。但是要知道采用哪种检验以及如何解释结果,这点很重要。
·成对样本就是两组样本集包含配对的有关联的观察值。例如:处理前、后相同样本的测量值或者同一样本被不同仪器测量所得的值。检验假设通常是两组样本的均值相等,换句话说,两组间的均值差是零。称这类检验为配对比较,是谢宁( Shainin)试验设计方法论中运用的工具之一(详见“试验设计”),这个检验和第5章所述的成对比较不是一回事。 ·卡方检验前参照关联表来组织数据。
·一些特殊情形下可以利用别的假设检验方法。例如当数据不服从正态分布时,有多种非参数检验方法可用。总结所有的假设检验方法超出本书范围。如果表中条件和数据不符合,请教统计学家帮助选择适当的检验方法。