9.3 Análisis de residuos. Gráficos.

Como se ha indicado anteriormente, el análisis de los residuos es básico para chequear si se verifican las hipótesis del modelo de regresión. Por ello, a continuación se exponen las propiedades matemáticas de los mismos. Considérese el modelo de regresión lineal múltiple

Y = X a + e.

Los residuos mínimo-cuadráticos vienen dados por

ei = yi- ^yi i = 1,...,n

o en forma matricial

e = Y - ^Y.

Como ^Y = HY, siendo H = X(XtX)-1Xt la matriz de proyección ortogonal. Es fácil probar que la matriz H es idempotente (HH  = H) y simétrica   t (H  = H). En base a esto

e = Y -^Y = Y -HY = (I- H)Y = (I -
H)(X
a + e) ==>
e = Xa + e -HXa -He = (I- H)e ,
donde se utilizó que HX = X. Se calcula la matriz de varianzas de los residuos,
                 (  ) Var(e) = (I-
H) E eet (I- H)t = s2(I- H) (I- H)t = s2(I- H) .

Por tanto, ei es una variable aleatoria con distribución

ei ~ N (0,s2(1- hii)), i = 1,...,n,
(9.9)
donde hii es el valor de influencia de xi. que mide la “distancia estadística” de xi. a x. Un residuo “grande” indica que la observación está lejos del modelo estimado y, por tanto, la predicción de esta observación es mala. Las observaciones con residuos grandes se denominan observaciones atípicas o heterogéneas (outliers).

Como los residuos tienen varianza variable y son dimensionados (tienen las unidades de la variable Y ), normalmente se tipifican

- V~ -ei--,  i = 1,...,n, s 1 - hii
(9.10)
los residuos tipificados siguen una distribución normal estándar, pero como s2 es desconocido, se sustituye por su estimador, la varianza residual ^s R2 y se obtienen los residuos estandarizados, definidos como

        ei ri = ^s- V~ 1---n-, i =
1,...,n,
     R      ii
(9.11)
Por la hipótesis de normalidad los residuos estandarizados siguen una distribución t con n-(k+ 1) grados de libertad. Como ya se indicó en el estudio del modelo de regresión lineal simple, en el cáluco de ri existe el problema de que hay una relación de dependencia entre el numerador y el denominador de ri. Para evitar ésto, con mayor esfuerzo computacional, se calcula para cada i, i = 1,...,n, el estimador ^s R,(i), la varianza residual del modelo de regresión obtenido a partir de la muestra en la que se ha eliminado la observación (xi,Yi). Ahora se definen los residuos estudentizados como

        ei ti = ^s--- V~ 1---n-~
t(n-1)- (k+1) i = 1,...,n
     R(i)     ii
(9.12)
Los residuos estudentizados siguen una distribución t con (n- 1) -(k +
1) grados de libertad. Si el tamaño muestral (n) es grande, los residuos estandarizados y los estudentizados son casi iguales y muy informativos, pudiéndose considerar grandes los residuos estandarizados tales que |ri| > 2.

Con los residuos estandarizados o estudentizados se pueden construir los siguientes gráficos de interés, muchos de los cuales ya han sido comentados,

bullet

El gráfico de dispersión matricial, de todas las variables del modelo (respuesta y regresoras). En el estudio de un modelo de regresión lineal múltiple es el primer gráfico que se debe observar. Proporciona una primera idea de la existencia de relación lineal o de otro tipo entre la respuesta y las regresoras y también da una idea de posibles relaciones lineales entre las variables regresoras, lo que crea problemas de multicolinealidad.

El gráfico de dispersión matricial para los datos del Ejemplo 7.1. se representa en la Figura 9.2.

(ei)

Figura 9.2. Gráfico matricial con los datos del Ejemplo 7.1.

bullet

El histograma de los residuos, que sirve para observar la existencia de normalidad, simetría y detectar observaciones atípicas.

bullet

El gráfico probabilístico de normalidad (p-p y q -q) y el gráfico de simetría, que permite contrastar la normalidad (simetría) de la distribución de los residuos.

bullet

El gráfico de residuos (ei) frente a las predicciones (^yi), que permite detectar diferentes problemas:

bullet

Heterocedasticidad, la varianza no es constante y se deben de transformar los datos (la variable Y ) o aplicar mínimos cuadrados ponderados.

bullet

Error en el análisis, se ha realizado mal el ajuste y se verifica que los residuos negativos se corresponden con los valores pequeños y^ i y los errores positivos se corresponden con los valores grandes de ^y i, o al revés.

bullet

El modelo es inadecuado por falta de linealidad y se deben de transformar los datos o introducir nuevas variables que pueden ser cuadrados de las existentes o productos de las mismas. O bien se deben introducir nuevas variables explicativas.

bullet

Existencia de observaciones atípicas o puntos extremos.

bullet

Tener en cuenta que se debe utilizar el gráfico de residuos  (ei) frente a las predicciones (^y )
 i en lugar del gráfico de residuos  (e )
  i frente a las observaciones (y )
  i porque las variables e e Y están correladas, mientras que las variables e e ^ Y no lo están.

bullet

El gráfico de residuos (ei) frente a una variable explicativa (xi,j), permite deducir si la existencia de heterocedasticidad o la falta de linealidad en el modelo son debidas a la variable explicativa representada.

Gráficos de este tipo son los representados en las Figuras 9.3 y 9.4. En la primera de ellas se observa que la relación con la variable xj no es lineal y, probablemente, un ajuste cuadrático sea adecuado, también se tendrían dudas acerca de la homocedasticidad del modelo.


Figura 9.3. Gráfico de residuos frente a variable regresora. Ajuste no lineal.

En la Figura 9.3 se observa que el modelo es heterocedástico y la causa de este problema puede ser la variable explicativa xj. Por ello, la solución se basa en transformar el modelo teniendo en cuenta este hecho.

(ei)

Figura 9.4. Gráfico de residuos frente a variable regresora. Heterocedasticidad.

bulletEl gráfico de residuos (ei) frente a una variable omitida, permite valorar si esta variable influye en el modelo y por lo tanto se debe incluir como una nueva variable regresora.

En la Figura 9.5. de residuos frente a una variable omitida (xomit) se observa que existe una relación lineal con esta variable y por tanto se mejora el ajuste si se incluye la variable xomit.


Figura 9.5. Gráfico de residuos frente a variable omitida.
Un situación frecuente se produce cuando se tienen observaciones de diferentes poblaciones y se debe de incluir una variable de clasificación en el modelo de regresión. Ésto se puede observar en el gráfico de residuos frente a predicciones como se puede ver en la Figura 9.6.

Figura 9.6. Necesidad de una variable de clasificación.
El gráfico de los residuos frente a la variable de clasificación omitida se presenta en la Figura 9.7.

Figura 9.7. Residuos frente a variable de clasificación omitida.
bulletEl gráfico parcial de residuos, es útil para valorar la influencia real de una variable regresora, esto es, conocer la información nueva que aporta la variable regresora en estudio y que no aportan las otras variables regresoras.  

Según el paquete estadístico que se utilice los gráficos parciales de residuos se pueden construir de diferentes formas.

Tipo 1.

Si se tienen k variables regresoras {x ,x ,...,x }
  1  2      k y se desea obtener el gráfico parcial de residuos respecto a la variable xk, se procede de la siguiente forma: 

  1. se calcula el modelo de regresión respecto a las restantes (k - 1) variables regresoras,

    y = ^a*1+
^a*x  + ^a*x + ...+ ^a*  x   + e*
     0    1 1    2 2        k-1 k-1   k
     
  2. Se calculan los residuos

     (
) e*k = y- ^y* = y-   ^a*01+ ^a*1x1 +a^*2x2 + ...+a^*k-1xk-1 ,

que representan la parte de Y no explicada por las variables x1,x2,...,xk-1

  1. Por tanto, la gráfica de los residuos “parciales” ek* frente a la variable xk permite valorar la importancia real de esta variable.

Tipo 2.

Un gráfico muy parecido y más fácil de calcular se obtiene de la siguiente forma. Calcular

~e k* = e + ^akxk = (y - ^y) + ^akxk
= y -( )
 ^a01+ ^a1x1 + ^a2x2 + ...+ ^ak-1xk-1
Se obtiene un nuevo gráfico parcial representando los residuos “parciales” ~e k* frente a la variable xk.

Si la variable xk es ortogonal a las restantes variables explicativas los estimadores a^i* y a^ i, i = 1,...,k - 1, serán muy próximos y, por tanto, también lo son los vectores ek* y e~k * . Lo que hace que los dos gráficos de residuos parciales sean casi iguales en este caso.

Gráficos parciales son representados en las Figuras 9.8 y 9.9. En ambos casos se observa que existe una relación lineal entre las variables regresoras y la variable de interés.


Figura 9.8. Gráfico parcial con los datos del Ejemplo 7.1. (altura)

Figura 9.9. Gráfico parcial con los datos del Ejemplo 7.1. (diámetro)

Tipo 3.

Otro gráfico parcial de interés que proporcionan algunos paquetes estadísticos es el siguiente (se quiere calcular el gráfico parcial respecto a xk):

Se calculan los modelos de regresión de las variables Y y xk respecto a las restantes (k - 1) variables regresoras,

     *    *      *           *          *
y = ^a0 + ^a1x1 + ^a2x2 + ...+ ^ak-1xk-1 + ek

x  = g  + g x  + g x + ...+ g    x   + e
 k    0    1 1    2 2         k- 1 k-1   g,k

Ahora se representa el gráfico de residuos de ek* frente a los residuos eg,k. Esto es, el gráfico de los pares       *
(eg,k,ek). Este gráfico da una idea de la relación entre la variable Y y la variable xk una vez que se ha eliminado la influencia de las otras variables regresoras.

Utilizando los datos del ejemplo 7.1. se obtienen los siguientes gráficos parciales:

      *
(eg,k,ek)

Figura 9.10. Gráfico parcial respecto a altura.

      *
(eg,k,ek)

Figura 9.11. Gráfico parcial respecto a diámetro.

 
bulletEl gráfico de residuos (ei) frente al índice (tiempo = i), proporciona información acerca de la hipótesis de independencia de los residuos. En este gráfico se pueden observar algunas características que indican falta de independencia, tales como una correlación positiva o negativa, la existencia de tendencias, saltos estructurales, rachas,....,etc.

En este gráfico también se puede observar si existe una relación lineal con el índice y éste debe de incluirse en el modelo de regresión como variable explicativa.

Como ya se indicó anteriormente al realizar estos gráficos, una alta variabilidad en los residuos (s2 grande) puede “esconder” una pauta de comportamiento de los mismos y, en este caso, es conveniente “filtrar” o “suavizar” los residuos utilizando la técnica de “medias móviles” o “medianas móviles” u otro análogo. Asi el filtro de “medianas móviles de orden tres” a partir de los residuos originales {et}t = 1n genera una nueva sucesión de residuos {et}t = 2n - 1 más “suave”.

et- --> filtro m.m.(3) --->
et = mediana{et-1,et,et+1}

para t = 2,...,n- 1. Si se considera que la sucesión resultante no está suficientemente suavizada se puede repetir el procedimiento de suavización.