4.5 La familia de transformaciones de Box-Cox.

La familia de transformaciones más utilizada para resolver los problemas de falta de normalidad y de heterocedasticidad es la familia de Box-Cox, cuya definición es la siguiente.

Se desea transformar la variable Y, cuyos valores muestrales se suponen positivos, en caso contrario se suma una cantidad fija M tal que Y + M > 0. La transformación de Box-Cox depende de un parámetro c por determinar y viene dada por

       {  yc--1- Z (c) =      c si
c /= 0 .
          lg(y)  si c = 0
(4.5)
Si se quieren transformar los datos para conseguir normalidad, el mejor método para estimar el parámetro c es el de máxima verosimilitud y se calcula como sigue: para diferentes valores de c se realiza la transformación

       {  -yc--1- U (c) =   c
y(c-1)  si c /= 0 .
          y lg(y)  si c = 0
(4.6)
siendo y = (y1y2...yn)1/n la media geométrica de la variable Y. Para cada c, se obtiene el conjunto de valores {Ui (c)}i = 1n. La función de verosimilitud es

            ( sum n               )
L(c) = -n-ln    (Ui (c) - U (c))2 .
        2     i=1
(4.7)
Se elige el parámetro c^ que maximiza L(c). En la práctica, se calcula L(c) en un enrejado (grid) de valores de c que permite dibujar aproximadamente la función L(c) y se obtiene el máximo de la misma.
^cMV = c0  /  L (c0) > L(c),  A
c.

Valores muy utilizados del parámetro c son los siguientes:



c Transformación


-1 Z(c) = 1/Y


-1/2Z(c) = 1/ V~ --
  Y


0 Z(c) = lg (y)


1/2 Z(c) =  V~ --
  Y


1 Z(c) = Y


Un método gráfico sencillo de estimar c es el siguiente:  
  1. Para cada grupo de residuos, según el tratamiento, se calcula la media de la respuesta, y i., y la desviación típica de los residuos, ^s i(e).
  2. Se dibuja el gráfico de los pares de puntos (y i.;^s i) y se ajusta una curva del tipo
    ^si = K .yai.
<==> lg ^si = lg K + algyi.

    (un ajuste lineal respecto a los logaritmos de ambas componentes)

  3. Conclusión:

    · Si a = 0 los residuos son homocedásticos.

    · Si a = 1 hay heterocedasticidad y la transformación a realizar es tomar logaritmos.

    · En otro caso, hay heterocedasticidad y se deben transformar los datos según la transformación de Box-Cox con c = 1 - a.