7.3 Análisis de residuos. Gráficos.

Para comprobar si se verifican las hipótesis estructurales en el ajuste de un modelo lineal, el análisis de residuos juega un papel fundamental y en este apartado se estudiarán algunos gráficos que de forma sencilla pueden aportar información relevante sobre el problema.

7.3.1 Residuos. Tipos.                  

 Residuos ordinarios.

Se define el residuo (ordinario) asociado a una observación muestral como la diferencia entre la observación (y)
 i y la predicción (y^)
 i,

ei = yi- ^yi, i = 1,...,n.

El i-ésimo residuo ei es una variable aleatoria que tiene las siguientes propiedades

E (ei) = 0, V ar(ei) = s2 (ei) =
s2(1 - hii), i = 1,...,n.
(7.1)
Bajo la hipótesis de normalidad se obtiene
ei ~ N (0;s2(1- hii)), i = 1,...,n,

 Residuos estandarizados.

De (7.1) se deduce que s2(ei) no es constante, lo que hace difícil identificar las observaciones con residuos grandes. Por ello es usual tipificarlos y se definen los residuos estandarizados como

        e ri =-- V~ -i----,  i =
1,...,n.
    sR  1- hii
(7.2)
Los residuos estandarizados tienen media cero y varianza próxima a 1, ésto permite distinguir a los residuos grandes.

 Dato atípico (outlier).

Una observación con residuo grande se denominan dato atípico (outlier), normalmente se considera que una observación es un dato atípico si tiene un residuo estandarizado mayor que 2 (|r |
  i > 2), otras veces se pide que |r |
 i > 3. En cualquier caso es una elección subjetiva y cuanto mayor sea |ri| más atípica es la observación.

Los datos atípicos son de gran importancia porque su inclusión o no en la muestra puede hacer que varíe mucho la recta de regresión estimada.

En el modelo de regresión lineal simple es fácil determinar las observaciones que son atípicas y estudiar su influencia en la estimación de la recta ajustada, normalmente, basta con observar el gráfico de dispersión de la muestra y la recta ajustada. En modelos de regresión múltiple este problema es más complejo (se estudia en el Capítulo 9). En cualquier caso, es conveniente estudiar las observaciones que tienen un residuo estandarizado o estudentizado grande.

Son muchas las causas que dan origen a la existencia de datos atípicos. Entre otras se pueden citar las siguientes:

 
El punto observado es un error (en la medición, en la transcripción de los datos, etc.) pero el modelo ajustado es adecuado.
 
El punto observado es correcto pero el modelo ajustado no lo es, porque la relación entre las dos variables es lineal en un determinado intervalo pero no es lineal donde se observa al punto; o existe una fuerte heterocedasticidad con algunas observaciones que se separan de la nube; o existe una variable de clasificación que no se ha tenido en cuenta.

 Residuos estudentizados.

De (7.2)se deduce existe una relación de dependencia entre el numerador y el denominador de ri ya que en el cálculo de sR se utiliza el residuo ei. Este problema se elimina si se estima la varianza residual a partir de toda la muestra excepto la observación (xi,yi). A la varianza residual así obtenida se le denota por sR,(i)2.

Se definen los residuos estudentizados como

ti =---- V~ ei----,  i = 1,...,n.
    sR,(i) 1- hii
(7.3)
Si n es grande los residuos estandarizados y estudentizados toman valores próximos.

Bajo la hipótesis de normalidad se verifica que ti sigue una distribución t con n- 3 grados de libertad.

Los residuos estudentizados  se pueden calcular de forma más sencilla como sigue

                V~ -----
     --------ei--n---3---------
ti = [       2            2]1/2  (-  tn-3, i = 1,...,n.
      (n - 2)sR (1- hii)- ei
(7.4)
 

Residuos eliminados.

Se definen los residuos eliminados como la diferencia entre lo observado en la respuesta (yi) y la predicción cuando se utiliza toda la muestra excepto la observación en estudio y que se denota por ^y i(i),

e(i) = yi - ^yi(i), i = 1,...,n.
(7.5)
Entre los residuos ordinarios y los residuos eliminados existe la siguiente relación

      --ei--
e(i) = 1 - hii, i = 1,...,n.
(7.6)
Si la observación (xi,yi) tiene una influencia grande en el cálculo de la recta de regresión, los dos residuos ei y e(i) son diferentes, en caso contrario, serán muy parecidos.

 

7.3.2 Gráficos de residuos.

El análisis descriptivo análitico y gráfico de los residuos estandarizados da una buena idea acerca de si se verifican o no las hipótesis del modelo de regresión. En una primera etapa es conveniente calcular los estadísticos básicos de los mismos: media, mediana, desviación típica, coeficiente de asimetría, coeficiente de curtosis, ... que permiten tener una primera aproximación a la distribución de los mismos.

Los gráficos de cajas (Box-Plot) y el histograma de los residuos estandarizados proporcionan información sobre la distribución de los mismos. Si el el tamaño de la muestra es pequeño en lugar del histograma de residuos se puede utilizar el diagrama de puntos (dot-plot) o el gráfico de tallos y hojas (stem and leaf plot), con una interpretación análoga a la expuesta para el histograma. (Ver figuras 7.13. y 7.14.)

Graphic: fig7-13  
Figura 7.13. Indica la existencia de una variable oculta.

Graphic: fig7-14

  Figura 7.14. Dot-plot de un conjunto de residuos.

El gráfico de residuos frente a predicciones.

Aparte de los gráficos ya comentados el gráfico de los residuos frente a las predicciones (^yi,ei) es el que proporciona una mayor información acerca del cumplimiento de las hipótesis del modelo. Esto se observa en las siguientes figuras:

Graphic: fig7-15

Figura 7.15. No se detecta ningún problema.  

Graphic: fig7-16

Figura 7.16. El ajuste lineal no es adecuado.

Graphic: fig7-17

Figura 7.17. Ajuste lineal mal calculado.

Graphic: fig7-18

Figura 7.18. Existe heterocedasticidad.

Graphic: fig7-19

Figura 7.19. Ajuste no lineal y heterocedasticidad.

 

Graphic: fig7-20

Figura 7.20 Existencia de datos atípicos.