.
正交实验设计
1.概述
任何生产部门,任何科学实验工作,为达到预期目的和效果都必须恰当地安排实验工作,力求通过次数不多的实验认识所研究课题的基本规律并取得满意的结果。例如为拟定一个正确而简便的分析方法,必然要研究影响这种分析方法效果的种种条件,诸如试剂浓度和用量、溶液酸度、反应时间以及共存组分的干扰等等。同时,对于影响分析效果的每一种条件,还应通过试验选择合理的范围。在这里,我们把受到条件影响的反系方法的准确度、精密度以及方法的效果等叫做指标;把试验中要研究的条件叫做因素;把每种条件在试验范围内的取值(或选取的试验点)叫做该条件的水平。这就是说我们常常遇到的问题可能包括多种因素,各种因素又有不同的水平,每种因素可能对分析结果产生各自的影响,也可能彼此交织在一起而产生综合的效果。
正交试验设计就是用于安排多因素实验并考察各因素影响大小的一种科学设计方法。它始于1942年,之后在各个领域里都得到很快的发展和广泛应用。这种科学设计方法是应用一套已规格化的表格——正交表来安排实验工作,其优点是适合于多种因素的实验设计,便于同时考查多种因素各种水平对指标的影响通过较少的实验次数,选出最佳的实验条件,即选出各因素的某一水平组成比较合适的条件,这样的条件就所考查的因素和水平而言,可视为最佳条件。另一方面,还可以帮助我们在错综复杂的因素中抓住主要因素,并判断那些因素只起单独的作用,那些因素除自身的单独作用外,它们之间还产生综合的效果。数理统计上的实验设计还能给出误差的估计。
2. 试验设计的基本方法 2.1 全面试验法
正交设计的方法,首先应根据实验的目的,确定影响实验结果的各种因素,选择这些影响因素的试验点,进而拟出实验方案,之后按所拟方案进行实验并对实验结果作出评估。必要时再拟出进一步的实验方案,使实验工作更趋完善,所得结果也更为可靠。
如在研究某一显色反应时,为选择合适的显色温度、酸度和显色完全的时间,可作如下的试验安排。 首先确定上述三因素的实验范围:
显色温度: 25——35℃ (温度以A表示) 酸浓度: 0.4——0.6mol/L (酸浓度以B表示) 显色时间: 10——30 min (时间以C表示)
其次确定每种因素在上述实验范围内各取的水平数(如各取三个水平)。 因素A的三个水平分别以A1,A2,A3表示; 因素B的三个水平分别以B1,B2,B3表示; 因素C的三个水平分别以C1,C2,C3表示; 然后将显色试验的因素、水平列为下表。
因素 水平 1 2 3
A 温度(t/℃) 25 30 35 B 酸浓度 ( C/mol·L-1) 0.4 0.6 0.6 C 时间(t/min) 10 20 30 .
.
这是一个三因素三水平的试验问题,对这样的试验工作可做如下的安排。
A1B1C1 A1B1C2 A1B1C3 A1B2C1 A1B2C2 A1B2C3 A1B3C1 A1B3C2 A1B3C3
A2B1C1 A2B1C2 A2B1C3 A2B2C1 A2B2C2 A2B2C3 A2B3C1 A2B3C2 A2B3C3
A3B1C1 A3B1C2 A3B1C3 A3B2C1 A3B2C2 A3B2C3 A3B3C1 A3B3C2 A3B3C3
即三因素水平的试验共27种组合(33=27),按上组合方式做完27次试验后自然可得出在所确定的因素和水平下的最佳显色条件。这种全面试验的方法,对事物的内部规律剖析得十分清楚,但却费时费事。假如我们还需要对实验精密度,对试验误差的大小做出估计,则每一试验至少应重复一次。即应做54次实验。如果在讨论六因素而每种因素均取5个水平时,则全面试验的数目是56= 15625次,这里还未包括为了给出误差估计所需的重复试验次数,显然这是难以付诸实施的。
当考察的因素,水平数越多,在试验中所有可能的搭配也更多,要逐个地进行试验,显然是不可能的。这就提出了合理地设计和安排试验的问题。提出了通过较少量的试验次数以获得理想的实验条件取得最佳的试验效果,并对试验结果做出科学评估的问题。 对于上述试验,一种习惯的试验方法是简单比较法。 2.2 简单比较法
这种方法首先固定因素A、B为某一水平(如A1、B1),改变C以获得在A1、B1时C的最佳水平(设为C2,在其下以“--”)。
C1 A1B1 C2 C3 然后固定A为A1,C为C2,改变B 以获得在A1、C2时B的最佳水平(设为B3) B1 A1C2 B2 B3 再固定B为B3,C为C2,改变A以获得在B3、C2时的最佳水平(设为A2)。 A1 B3C2 A2 A3 这样可以认为A2B3C2为较佳的显色条件,即简单比较法经过9次试验也能获得较佳的试验条件,但却存在以下缺点:
2.2.1 当各因素之间交互影响较大时,A2B3C2不认为是最佳试验条件。
2.2.2 它未能保证三因素中任何两因素的不同水平之间相碰一次因而上不均衡的,它提供的信息也是不丰富的。
2.2.3 在不做重复试验的情况下,不能给出误差的估计。
如何保持这种方法试验次数少的优点而又能避免上述缺点呢,可采用正交设计的方法来解决。 在这9次试验中实际上有两次试验是在相同条件下的重复试验(A1B3C2 和A1B3C2),所以只有7次属不同条件下的实验,另一方面还可看出各因素、各水平出现的机会是不均衡的,其中A1、C2各出现了7次;B3、C1各出现了4次;而A2、A3、C1、C3、B2却只出现了一次,显然,它们的出现的机会是很不均衡的。
.
.
简单比较法认为最佳的分析条件是A2B3C2,但在试验过程中C2是在A1B1条件下与C1和C3相比,是最佳的一个条件水平,至于因素A、B取其他水平时是否也得出同样的结论,却未做过实验,也不能得出同样的结论,故上述的条件不能视为最佳的显色条件,而只能是最佳条件的一种估计。
导致上述几种问题的原因是简单比较法中各因素各水平的搭配不是均衡分散的,只能在同一批试验中做单因素比较,而在不同批数的试验之间却无法进行比较。
2.3 正交设计法
试验设计是数理统计中的一个重要内容,正交设计是利用预先编制好的正交表来合理的安排多因素试验,以便通过少量的试验次数来获得满意的结果,同时对试验数据进行统计分析。
现在对三因素三水平的试验做如下的安排,首先只考虑A、B两因素,起全面实验应作9次,如下表所示。
B A A1 A2 A3 这时两因素的三水平相互各碰一次,它反映的情况全面,现在将因素C考虑进去,也同样希望在任何两个因素的不同水平之间各相碰一次而有不增加试验的次数,可做如下按排.。 C B A A1 A2 A3 按上表安排的9次试验与简单比较法相比,试验次数相同但却克服了简单比较法的不均衡性,A的每个水平和B、C的三个水平分别各碰一次,B的每个水平和A、C的三个水平分别各碰一次,对C也是类似的情况。即三因素中任何两因素的不同水平均相碰一次因而试验是均衡的,上述9次试验可视为三因素三水平的全面试验的代表。为了书写方便,上述试验设计可简化为下表: C B A 1 2 3 表中右下角部分的每一行和每一列中,1,2,3正好各出现一次,我们把具有这样的性质方块叫拉丁方,在排这种方块时常用拉丁字母,故有拉丁方之称。
3正交设计法的基本特征 3.1 均衡分散性
在正交设计的试验安排中,各因素之间的搭配是均匀的,这种因素间搭配的均匀性——试验点分布的均衡性成为正交设计的均衡分散性。或者说,正交试验设计把各试验条件均衡地分散在排列完全的水平组合之中,是之更具有代表性,更易于通过最少的试验次数来寻求最佳的试验条件,正交设计的这种性质,可
1 2 3 2 3 1 3 1 2 1 2 3 A1B1C1 A2B1C2 A3B1C3 A1B2C2 A2B2C3 A3B2C1 A1B3C3 A2B3C1 A3B3C2 B1 B2 B3 A1B1 A2B1 A3B1 A1B2 A2B2 A3B2 A1B3 A2B3 A3B3 B1 B2 B3 .
.
以从试验结果的平均值中消除由于非均衡所引起的误差,有利于提高测定结果的可靠信。
3.2 整齐可比性
正交试验设计中,各因素各水平之间不仅搭配均匀,而且变化很有规律。在考虑某因素的每一水平的试验中,其他各因素各水平出现的次数都相同,所作的贡献也认为是一致的。这样在比较各因素的每一水平对指标生产的影响时,就能最大限度地排除其他因素的干扰,突出本因素的作用,也就将各因素的效应清楚地加以区别并估计其大小,这就是正交试验设计的整齐可比性。
在数学上把均衡分散性和整齐可比性称为正交性,凡具有这特性的试验设计方法都称为正交设计法。正是由于正交试验设计最大限度地排除了其他因素的干扰并消除了非均匀分散性可能造成的误差,因而只要比较因素各水平的试验指标的平均植,就能估计各因素对试验指标的影响大小,这在后面将作具体的介绍。
3.3两拉丁方的叠合
在上述三因素三水平的基础上,如果还需同时考虑第四个因素D,且因素D也取三个水平(D1,D2,D3),那么能否在不增加试验次数而又能保持前述的要求呢?这首先应将D的三个水平拼成拉丁方,其次D的拉丁方和C的拉丁方不一样。对于前着,是使D也能与A、B均衡搭配;对于后者,是使D与C之间也能均衡,既无重复,又无遗漏。
若用(1),(2),(3)表示D的三个水平,而D的拉丁方与C的拉丁方相同时,其9次试验安排为:
C(D) B A 1 2 3
这时A、B和D间是均衡的搭配,但C和D的搭配却不均衡,C的(1)水平和D的(1)水平相碰三次而不与D的(2)、(3)水平相碰,C的其他水平也有类似的情况。所以上述的试验安排是不妥的,当试验的结果表明C的(1)水平最好,而在C取(1)水平时总是伴随着D的(1)水平的出现,自然也可以认为是D的(1)水平也最好,导致C和D的作用混杂。改进上述试验设计时,只需使D的拉丁方和C的拉丁方不同,两拉丁方具有均匀的搭配。按此原则可作如下的设计:
C、D B A 1 2 3 1(1) 2(3) 3(2) 2(2) 3(1) 1(3) 3(3) 1(2) 2(1) 1 2 3 1 1(1) 2(2) 3(3) 2 2(2) 3(3) 1(1) 3 3(3) 1(1) 2(2) 这时D的三个水平组成的是拉丁方,它和A、B及C之间的搭配都是均衡的,D的每一水平和C的1、2、3水平各碰一次,C的每一水平也和D的(1)、(2)、(3)水平各碰一次,既无重复,也无遗漏。现将C、D两个拉丁方叠合在一起,就获得上述的试验设计,习惯上把具有这种性质的两个拉丁方叫正交拉丁方。
1 2 3 还可简便地寻求到最优的测量条件,达到预期的效果。 .
2 3 1 3 1 2 1(1) 2(3) 3(2) 2(2) 3(1) 1(3) 3(3) 1(2) 2(1) (1) (2) (3) (3)(1) (2) (2) (3) (1) 正交拉方设计因其搭配均衡,在分析试验数据时可以把每个因素的作用剖析得十分清楚而不致混杂,同时
.
第一部分
正交试验结果的直观分析
1.正交表及其使用
1.1
正交表
它是一种预先编制好的表格,根据这种表可合理安排试验并对试验数据作出判断。
对于前述的三因素三水平试验的设计安排,可采用L9(34)正交表来完成。L9(34)表见表1.
表1 L9(34)正交表
水平 因素(列号 ) 试验号 1 2 3 4 5 6 7 8 9 1 2 3 4 1 1 1 2 2 2 3 3 3 1 2 3 1 2 3 1 2 3 1 2 3 2 3 1 3 1 2 1 2 3 3 1 2 2 3 1 表L9(34)读作L—9—3—4,符号L表示正交表,L右下角的数字“9”表示此表有9行,即需安排9个实验,括号内数字的指数“4”表示有4列,即最多能安排四个因素;括号内数字的底数“3”表示每个因素取三个水平。表头的列号是置放试验中的因素(因素常记为A、B、C、D……),表中列号1、2、3、4是在不考虑交互作用时最多可置放四个因素(因素少于四时,可只用其中几列),表的左侧为试验号,表内的1、2、3是因素在试验中应分别取的水平,故称作水平号。L9(34)正交表可解决四因素(或少于四因素)的三水平试验设计问题,是一种较为简单的正交表。当试验因素及所取水平数更多时,则应选择其它种类的正交表,如L16(45)、L27(313)、L25(56)、L16(42×29)等,其中L16(42× 29)表示作16个试验,可安两个四水平的因素和9个二水平的因素。
1.2.正交表的选择
选择正交表时可考虑以下几点:
(1.2.1) 根据试验目的确定要考查的因素,如对试验的变化规律有大致的了解,有把握判断出影响试验效果的主要因素,可少取些因素,也可多取些因素,总之不能将主要影响因素漏掉。
(1.2.2) 确定各因素的变化范围和水平数,每个因素的水平数可以相等,也可以不等,一般地说,重要因素或者特别希望详细考查的因素,其变化范围可宽些水平数可多些,其余的因素所取水平数则可少些。 (1.2.3) 根据试验者进行试验时一次能平行完成的试验次数而选择正交表。
( 1.2.4 )选用正交表除考虑因素水平及试验条件外,还应考虑对试验结果精度的要求。当对试验结果的精度要求高时,宜取试验次数多的正交表,试验费用贵或试验周期长的,可取试验次数少的正交表。当存在交互作用时,应选用具交互作用的正交表。一般情况下,若因素全为二水平时,可选用L4(23)、L8(27)、L16(215)等正交表;因素全是三水平时,可选用L9(34)、L18(2×37)、L27(318)等正交表;若因素全为四水平的,可选用L16(45)正交表;因素全为五水平的则选用L16(45)正交表。当因素取不同水平时,一
8方面可采用下面即将介绍的拟水平法,一方面可直接套用L(4×*2)、L12(3×28)、L16(4×212)、L18(42×29)8
等混合水平正交表。在三水平实验种选L18(2×37),其中2水平所在的列,不做安排。三水平因素可在其它7列选用。 .