5.2 Diseño en bloques completamente aleatorizados.

El modelo de diseño de experimentos con bloques más sencillo es el diseño de  bloques completamente aleatorizados, con este diseño se quiere estudiar la influencia de un factor tratamiento (Ta) con I niveles en una variable de interés en presencia de una variable extraña, el factor bloque, Bb, que tiene J bloques.

El motivo de la denominación de este modelo es la siguiente: se ha agrupan las unidades experimentales en J bloques, en función de Bb, aleatorizando la forma de asignar los tratamientos dentro de cada bloque y es un diseño completo y equilibrado porque cada tratamiento se utiliza exactamente una vez dentro de cada bloque.

En este modelo, un bloque es un grupo de I unidades experimentales tan parecidas como sea posible con respecto a la variable Bb, asignándose aleatoriamente cada tratamiento a una unidad dentro de cada bloque.

 

5.2.1 Modelo matemático.

La formulación matemática del modelo de diseño en bloques completamente aleatorizados con un factor principal (factor tratamiento), Ta, con I niveles y un factor secundario (factor bloque), Bb, con J niveles o bloques es la siguiente:

Para cada i = 1,...,I; j = 1,...,J, 

        determínista
        ----  ----
Yij  =   m+ ai + bj +   eij  ,                                 (1.1)
                     aleatorio
        los e  son v.a.i.i.d. según una N (0,s2),
            ij
(5.1)
siendo,
* Y ij el resultado del tratamiento i-ésimo, i = 1,2,...,I de Ta al bloque j-ésimo, j = 1,2,...,ni.
* m es la media de toda la población. Mide el nivel medio de todos los resultados.
* ai es el efecto del tratamiento i-ésimo de Ta , i = 1,2,...,I. Mide el efecto incremental del tratamiento del nivel de Ta sobre el efecto global. Se verifica que  sum i = 1Iai = 0,
* bj es el efecto del bloque j-ésimo, j = 1,2,...,J, mide el efecto incremental del tratamiento del factor secundario (bloque) sobre el efecto global (m). Se verifica que  sum j = 1Jbi = 0,
* eij es el error experimental o perturbación, son variables aleatorias independientes idénticamente distribuidas (i.i.d.) con distribución N(0,s2).

El número de observaciones es: n = IJ,

El problema básico que se plantea es contrastar la hipótesis nula de que el factor-tratamiento no influye,

H(a0)  =_   a1 = a2 = ...=  aI = 0
(5.2)
frente a la alternativa de que sí existen diferencias entre los valores medios de los distintos tratamientos.

En el estudio de este modelo debe de tenerse en cuenta que no existe interacción entre el factor-tratamiento y el factor-bloque y en el desarrollo el problema puede hacerse un segundo contraste acerca de si el factor-bloque es influyente o no. Este contraste es

 

H(b)  =_   b  = b  = ...= b  =  0
  0        1    2         J
(5.3)
frente a la alternativa de que sí existen diferencias entre los valores medios de los distintos tratamientos del segundo factor. Sin embargo en el modelo tratamiento-bloque realizar este contraste carece de interés salvo para saber si ha sido conveniente bloquear o no.

Por ello en la práctica:

“Carece de interés plantearse la hipótesis nula de igualdad de los efectos bloque. El único objetivo puede ser el de concluir si bloquear el experimento resultó o no beneficioso”.

En efecto, si la suma de cuadrados medios atribuibles a los bloques es considerablemente mayor que la suma de cuadrados medios residual, habrá resultado útil bloquear en el sentido de que tal acción derivó en una reducción del tamaño del error experimental. En otro caso, bloquear es contraproducente.

 

5.2.2 Estimación de los parámetros.

El número de parámetros que hay que estimar en modelo (5.1) es

|----------------|---------|
|   Parámetros   |N úmero  |
|       m        |   1     |
| a1,a2,...,aI-1 |   I- 1   |
|                |         |
|b1, b2,..2.,bJ -1 |  J -1    |
--------s------------1-----|

utilizando n = IJ observaciones hay que estimar un número de parámetros

1 + (I - 1)+ (J - 1)+ 1 = I + J,

Se utiliza el método de mínimos cuadrados que se basa en minimizar la suma de los cuadrados de los residuos

  (       )         1   sum I  sum J (   (           ))2
Y  ^m,^ai,^bj  = mm,aiin,b  IJ-       Yij-  m - ai - bj   ,
                  j    i=1 j=1
(5.4)

se obtienen los siguientes estimadores:

         1  sum I  sum J ^m = Y..=
---      Yij,
         IJ i=1 j=1
(5.5)
 J ^a = Y  - Y , i = 1,...,I. con
Y  = 1- sum  Y ,
 i   i.   ..                    i.  J j=1 ij
(5.6)
 1  sum I ^bj = Y.j - Y.., j =
1,...,J. con  Y.j = I   Yij,
                                     i=1
(5.7)
Por tanto, la predicción en la casilla (i,j) es
^yij = ^m + ^ai + ^bj = yi.+ y.j- y..,
(5.8)
y los residuos son
eij = yij- ^yij.

La suma de los residuos en cada fila y cada columna es cero, por tanto, hay I + J - 1 relaciones entre los  IJ residuos y el número de grados de libertad es

g.l.= IJ - (I + J - 1) = (I- 1)(J-
1).

Razonando como en el modelo de diseño completamente aleatorizado se obtiene que el estimador de la varianza es la varianza residual

                  I  J
 2   -----1------ sum    sum  2    ----SCR------
^sR = (I- 1)(J- 1) i=1 j=1 eij = (I - 1)(J - 1)
(5.9)
Propiedades de los estimadores.

La distribución de los estimadores anteriores es la siguiente,

          (   s2)     ^m- m  V~ -
^m = Y.. (-  N m, n-- ===>  -^s--- n ~ t(I-1)(J- 1)
                        R
(5.10)
      (          )            V~
----- ^ai ~ N ai,s2I---1  ===>  ^ai--ai- --n--~ t(I- 1)(J-1)
              n          ^sR    I - 1
(5.11)
       (          )              V~
----- ^           2J---1       b^j---bj   -n--- bj ~ N  bj,s   n
===>     s^R      J- 1 ~ t(I-1)(J-1)
(5.12)
(I-1)(J-1)s^2R     2
----s2-----~ x (I-1)(J-1)
(5.13)
Por tanto, los estimadores definidos son centrados y eficientes. Utilizando las distribuciones anteriores (la t y la x2) se pueden calcular intervalos de confianza de los parámetros del modelo.

Para calcular intervalos de confianza acerca de las medias de los niveles, las distribuciones de referencia son:

Para las medias de los niveles (m + ai) del factor tratamiento Ta

             V~ --
(m+-ai)---Yi.- J ~ t(I- 1)(J-1)
     ^sR
(5.14)
Para las medias de los bloques (      )
 m + bj del factor bloque Bb

(      )
--m+-bj----Y.j V~ --
      ^sR        I ~ t(I-1)(J-1)
(5.15)

 

5.2.3 Análisis de la varianza.

Utilizando 

                              ^
eij = yij- y^ij = yij - (m^+ ^ai + bj) = yij- yi.- y.j + y..,

se puede hacer la siguiente descomposición de las diferencias para cada i = 1,...,I;
j = 1,...,J,

y  - y   =  (y  - y )+ (y  - y )+ (y  - y  - y  + y )
 ij   ..      i.   ..     .j   ..     ij   i.   .j    ..

         =  (y  - y )+ (y  - y )+ e  =  ^a + ^b  + e ,
              i.   ..     .j   ..    ij    i   j    ij

(5.16)

 

elevando al cuadrado en (5.16) y teniendo en cuenta que  los dobles productos se anulan, la suma de cuadrados global se puede descomponer de la forma:

 

Suma  de cuadrados         Suma   de cuadrados

  -Global (scG)---        Explicada--por T-a-(scT)
  sum I  sum J                        sum I
       (yij- y..)2    =        J   (yi.- y..)2
 i=1j=1                        i=1
--------- ---------      -----------  -----------
     g.l.= IJ-1                    g.l.=I-1
                              Suma   de cuadrados

                            Explicada-por-Bb--(scB)
                                   J
                         +       I sum  (y  - y )2
                                  j=1  .j    ..
                            ----------- -----------
                                    g.l.= J-1

                         Suma   de cuadrados
                            Residual (scR)
                                  2
                     +   --------eij---------
                            g.l.=(I-1)(J- 1)

esto es,

 sum I  sum J             sum I sum
J     sum I J sum
      (yij- y..)2 = J   a^2i + I  ^b2j +       e2ij,
i=1j=1             i=1      j=1     i=1 j=1
(5.13)
escrito de otra forma

scG =  scT a + scBb + scR

de donde se deduce la siguiente tabla ANOVA

 

CUADRO DEL ANÁLISIS DE LA VARIANZA
— MODELO TRATAMIENTO-BLOQUE —
Fuente de
Variación
Suma de
Cuadrados
g.l.

 

scm

 

F^

 

Tratamientos
scT =
J  sum i (y- - y-)
  i.   ..2
I - 1
scmT =
-scT--
I-  1
 
-scmT--
scmR
Bloques
scB =
I  sum j (       )
 y.j - y..2
J -1
scmT =
-scB--
J - 1
scmB--
scmR
Residual
scR =
 sum i  sum j(     --   --   --)
 yij- yi.- y.j + y..2
(I -1)(J -1)
scmR =
     scR
-------------
(I - 1)(J- 1)
 
Global
scG =
 sum i  sum j       --
(yij- y..)2
 
IJ - 1
scmG =
 scG
-------
IJ - 1
 
Rechazar H0(1) : a1 = a2 = ... = aI, según p = P(                       )
  scmT--> FI -1,(I-1)(J-1)
  scmR 
Rechazar H0(2) : b1 = b2 = ... = bJ, según p = P(                       )
  scmB--
  scmR  >  FJ-1,(I-1)(J- 1)

Tabla 5.1: Análisis de la varianza para un diseño en bloques completamente aleatorizados.

De esta tabla ANOVA se deducen dos contrastes:

bulletSi H0(a) es cierto, el factor-tratamiento no influye, se verifica que  
                              SCM---Ta-~  x2I-1 ==>
                                 s2
                     SCT--a
F   = SCM--T-a-= -----I--1-----~  F             ,             (1.17)
  a    SCM  R     ----SCR------    (I- 1),(I-1)(J- 1)
                  (I - 1)(J-  1)

(5.14)

 

se rechaza H0(a) al nivel de significación a si ^F1 = scmT-
scmR > F(I-1),(I-1)(J-1)(1- a).

bulletSi H0(b) es cierto, el factor-bloque no influye, se verifica que

SCM--B-    2         SCM--B-
  s2   ~ x J-1 ==> F2 = SCM R  ~ F(J- 1),(I-1)(J-1),
(5.15)
se rechaza H0(b) al nivel de significación a si  

^Fb = (scmBb / scmR) > F(J- 1),(I-1)(J- 1)(1 - a)

 

Comentarios.

bulletLa eficacia de este diseño depende de los efectos de los bloques. Si éstos son pequeños, es más eficaz el diseño completamente aleatorio ya que el denominador en la comparación de tratamientos tiene menos grados de libertad. Sin embargo si los bloques influyen es mucho mejor y más eficaz este modelo, ya que disminuye la variabilidad no explicada. Por ello, es mejor estudiar primero el modelo de bloques aleatorizados y, si los bloques no influyen, se pasa fácilmente al modelo de un solo factor sumando en la tabla ANOVA la fila del factor bloque con la de la variabilidad residual.
bulletSe define el Coeficiente de Determinación como:

       scTa + scBb
R2  = -------------= R2 (Ta) + R2 (Bb)
          scG

siendo R2(Ta) y R2(Tb) los coeficientes de determinación parciales asociados al factor-tratamiento y al factor-bloque, respectivamente. Representan el tanto por uno de la variabilidad total explicada por los tratamientos y los bloques.

bulletEl tratamiento estadístico expuesto para el modelo de diseño de experimentos completamente aleatorizado con un factor tratamiento y un factor bloque es exactamente igual que el diseño de experimentos con dos factores tratamiento sin interacción.
bulletSi de la tabla ANOVA del modelo de diseño de experimentos completamente aleatorizado se deduce que existen diferencias entre los tratamientos, estas diferencias (a  -a  )
  i    k se estiman por
^ai- ^ak = Yi.-Yk.,  i,k = 1,...,I.

Se pueden obtener intervalos de confianza de ai - ak a partir de la distribución

(       ) -Yi.-Yk.-- V~ -(ai--ak) ~
t(I-1)(J-1),
       ^s   2-
        R  J
(5.16)
de forma análoga se puede hacer para las diferencias bj - bl.
bullet

La eficacia de este diseño depende de los efectos de los bloques. Si éstos son pequeños, es más eficaz el diseño completamente aleatorio ya que el denominador en la comparación de tratamientos (ver (5. 13)) tiene menos grados de libertad. Sin embargo si los bloques influyen es mucho mejor y más eficaz este modelo ya que disminuye la variabilidad no explicada.

Por ello es mejor estudiar primero el modelo de bloques aleatorizados y, si los bloques no influyen, se pasa fácilmente al modelo de un solo factor sumando en la tabla ANOVA la fila del factor bloque con la de la variabilidad residual. Aunque existe una discusión acerca de si se puede pasar de un modelo a otro ya que una diferencia importante entre los dos modelos es que en un diseño completamente aleatorizado, los tratamientos y, equivalentemente, los niveles de los factores tratamiento son asignados aleatoriamente a las unidades experimentales. Por el contrario, en un diseño en bloques, aunque las observaciones son también tomadas sobre todas las combinaciones de tratamientos y bloques, sólo los niveles del factor tratamiento son asignados aleatoriamente a las unidades experimentales. Hay que tener en cuenta que la división de las unidades experimentales para formar los bloques es determinista. Esto ha hecho que exista una fuerte controversia acerca de si es apropiado o no contrastar la igualdad de los efectos bloque. Al fin y al cabo, en el diseño que se está analizando los bloques representan fuentes de variación “nuisance”, esto es, no existe interés alguno en la posible significación del efecto bloque. Más aún, es poco probable que sea factible utilizar los mismos bloques en una hipotética réplica del experimento.

Por todo ello, en la práctica  

“Bloquear sin ser necesario conduce a pruebas de hipótesis menos potentes y a intervalos de confianza más amplios que aquellos que se obtendrían mediante un diseño completamente aleatorizado”.

bullet

Si se tiene un diseño de experimentos con dos factores tratamiento (Ta y Tb) entre los que no existe interacción,  el tratamiento estadístico y desarrollo que se estudia en esta sección es válido para este modelo. En este caso el contraste de las dos hipótesis acerca de la influencia de los efectos de los niveles de los dos factores Ta y Tb dados en (5.2 ) y (5.3 ) son de gran interés, contrastes que se resuelven a partir de la tabla ANOVA utilizando (5.1 3) y (5.1 4). En cualquier caso, aunque el modelo de bloques completamente aleatorizado y el modelo de dos factores sin interación tienen un desarrollo matemático análogo, su planteamiento y objetivos son diferentes.

 

5.2.4 Análisis de residuos.

Como en cualquier modelo estadístico hay que contrastar que se verifican las hipótesis del modelo. Esto se hace, básicamente, por medio del análisis de los residuos. Todo lo estudiado sobre este particular en el modelo de un solo factor (diseño completamente aleatorizado) sigue siendo válido para este modelo. Se contrastarán las hipótesis de:

bulletNormalidad de los residuos.
bulletHomocedasticidad: la varianza en los diferentes niveles de cada uno de los dos factores es constante.
bulletIndependencia de los residuos.
bulletHomogeneidad de los datos, todos provienen de la misma distribución y no hay datos atípicos.
bulletNo existe interacción entre los dos factores. El concepto de interacción se estudia con mayor detalle en la sección siguiente. Intuitivamente y basándose en el ejemplo 5.1. que no exista interacción entre el factor tratamiento Ta y el factor bloque Bb significa que la velocidad de impresión de una determinada impresora es mayor (o menor) de la media global independientemente de la foto que imprima (del bloque).

Si existe interacción entre Ta y Bb, el modelo de bloques completamente aleatorizado no es adecuado y hay que tratar el factor bloque como un factor tratamiento (Tb). Se tiene entonces un  diseño de experimentos con dos factores (tratamiento) y el modelo matemático es

Yij = m + ai + bj + (ab)ij + eij, i =
1,...,I; j = 1,... ,J
(5.20)
el parámetro (ab)ij representa la interacción del nivel i del factor Ta con el nivel j del factor Tb. Este modelo se estudia en la sección 4 de este capítulo.

 

5.2.5 Análisis de un caso.

Se desarrolla el problema presentado en el Ejemplo 5.1. cuyo enunciado más concreto es el siguiente,

Ejemplo 5.1.b.

“Una empresa fotográfica tiene que realizar una compra de impresoras de gran calidad que se van a utilizar en imprimir fotografías digitales. La empresa tiene ofertas de I = 5  marcas de impresoras de similares características y precio. Para la empresa fotográfica es muy importante la “velocidad de impresión” y, por este motivo, está interesada en saber si las 5 impresoras ofertadas tienen la misma velocidad o hay una que es más rápida. Para responder a esta pregunta decide hacer un experimento que consiste en elegir una única muestra de J = 4 fotos e imprimirlas en las 5 impresoras.

Los resultados del experimento se recogen en la tabla adjunta”











Foto A Foto B Foto C Foto D





Impresora 1
89
88
97
94





Impresora 2
84
77
92
79





Impresora 3
81
87
87
85





Impresora 4
87
92
89
84





Impresora 5
79
81
80
88





Solución.

Estimación de los parámetros.

Se obtienen las siguientes estimaciones

Estimaciones








Foto A Foto B Foto C Foto D y i. ^ai







Impresora 1
89
88
97
94
92 6







Impresora 2
84
77
92
79
83 -3







Impresora 3
81
87
87
85
85 -1







Impresora 4
87
92
89
84
88 2







Impresora 5
79
81
80
88
82 -4







y .j
84
85
89
86







^
bj
-2
-1
3
0
y .. = 86







Las predicciones y residuos son :

Predicciones






F. A F. B F. C F. D





I.1
90
91
95
92





I.2
81
82
86
83





I.3
83
84
88
85





I.4
86
87
91
88





I.5
80
81
85
82





Residuos





F. A F. B F. C F. D





I.1 -1 -3 2 2





I.2 3 -5 6 -4





I.3 -2 3 -1 0





I.4 1 5 -2 -4





I.5 -1 0 -5 6





La varianza residual es
 2    ------1------ sum I J sum    2   -1-       '           '
^sR =  (I - 1)(J - 1)       eij = 12226 = 18 83 ==> ^sR = 4 34.
                    i=1 j=1

Intervalos de confianza.

Intervalos de confianza al 90% para los parámetros del modelo son:

Para s2,

 

   (    )            12 .18'83      (    )
x212 0'05   =   5'23 < -----2---<  x212 0'95  = 21'03
                '     2 s   '
           ==>   068 < s  < 21 03

Para m (tiempo medio global)

y..--m V~ 20- ~   t12 ==>
  ^sR
                    4'34    ( ' )        '     '          '
         m   (-   86±  V~ 20-t12 0 95  = 86± 0 97 .178 = 86 ± 127.

Para mI3 = m + a3 (tiempo medio de imprimir de la impresora 3)

y  - m   V~ --
-3.---I3  4  ~  t12 ==>
   ^sR                 '
        m     (-  85 ± 4 V~ 34t (0'95)= 85 ± 3'86.
         I3            4  12

Para a3 (el efecto de la impresora 3)

        V~ ------
^a3---a3- --20-
  ^sR     5 - 1  ~   t12 ==>
                          '     (    )
            a3   (-   -1 ± 4 V~ 34t12 0'95 = 85 ± 3'45.
                           5

Para h31 = a3 - a1 = mI3 - mI1 (diferencia entre la impresora 3 y la 1)

(y3.- y1.) - h31  V~  4
---------------  -- ~  t12 ==>
      ^sR         2            '
              h31a   (-  - 7 ± 4 V~ 34-t12(0'95)=  85 ± 5'46.
                               2

Trabajando al 90% se obtienen los siguientes grupos homogéneos de impresoras:

      Imp. 5 - Imp. 2 - Imp. 3

      Imp. 2 - Imp. 3 - Imp. 4

      Imp. 4 - Imp. 1

Tabla ANOVA.





Fuentes de Suma de Grados de Varianzas
variación cuadrados libertad




scTa
264
4
66'00




scBb
70
3
23'33




scExplicada
334
7
47'71




scR
226
12
18'83




scG
560
19
29'47








A partir de esta tabla se obtienen los siguientes contrastes

H0(a)  =_ a1 = a2 = ... = a5 = 0 (el “tipo de impresora” no influye)

^    scmT-a-   -66--    '
Fa =   ^s2   =  18'83 =  3504 ~ FI-1,(I-1)(J -1) = F4,12?
        R

p-valor= 0'0407. Se rechaza H0(a) para a = 0'05, pero el p-valor ofrece dudas acerca de la influencia del factor “tipo de impresora”.

H0(b)  =_ b1 = b2 = ... = b4 = 0 (el  “tipo de foto” no influye)

     scmB     23'33
F^b = ---2-- = --'-- = 1'239 ~ FJ -1,(I-1)(J-1) = F3,12?
       ^sR     18 83

p-valor= 0'3387. Se acepta H0(b) para cualquier a razonable y el factor bloque  “tipo de foto” no influye, por tanto, no convenía bloquear.

Coeficientes de determinación.

Los coeficientes de determinación parciales son

 2       264-   '
R  (a) =  560 = 04714,

el factor “tipo de impresora” explica el 47'14% de variabilidad.

 2       70--   '
R  (b) = 560 = 01250,

el factor  “tipo de foto” explica el 12'50% de variabilidad.

El coeficiente de determinación total es la suma de los parciales,

  2         334    '
R  (total) = 560-= 0 5964,

el modelo explica el 59'64% de variabilidad.

Un modelo alternativo.

En conclusión, parece razonable aceptar la influencia del factor-tratamiento “tipo de impresora” y la no influencia del factor bloque  “tipo de foto”.  Se puede pasar facilmente al modelo completamente aleatorizado, la tabla  ANOVA con un solo factor que se obtiene de la anterior sumando las filas de scBb y scR, obteniendo

Tabla ANOVA





Resultados con un solo factor









Fuentes de Suma de Grados de Varianzas
Variación Cuadrados libertad




scTa
264
4
66'00




scR
296
15
19'73




scG
560
19
29'47




Ahora el contraste H0(a)  =_ a1 = a2 = ... = a5 = 0 (el “tipo de impresora” no influye) es
^'   scmT--a   66'00    '
FT =   s^2    = 19'73 = 334 ~ FI- 1,I(J- 1) = F4,16?
        R

p-valor= 0'038. Se rechaza H0(a) para a > 0'038.  Se tiene mayor seguridad acerca de la influencia del factor “tipo de impresora” que en el modelo anterior.