8.7 Predicción en el Modelo de Regresión Lineal Múltiple.

Razonando como en el modelo de regresión lineal simple, se deben distinguir dos problemas diferentes:

bullet

Estimar la media de la distribución condicionada de Y/X = xt. Esto es, se quiere estimar el parámetro

          (        ) m (xt) = E Y/X
= xt .
Y poder responder a preguntas como la siguiente: “¿cuál es el volumen medio de los árboles de diámetro 10 u. y altura 80 u.?”.

bulletPredecir el valor de la variable respuesta en un individuo del que se conoce que X = xh. Esto es, se quiere predecir un valor de la variable condicionada Y/X = xh.

Se quiere responder a preguntas como la siguiente: “conociendo que un determinado árbol tiene un diámetro 10 u. y una altura de 80 u. ¿qué volumen se predice para este árbol?”

8.7.1 Estimación de las medias condicionadas.

Una vez que se ha ajustado el modelo de regresión lineal por mínimos cuadrados se obtiene

             (   )- 1 ^Y = Xt^a =
Xt XtX     XtY.

El estimador de la media de la distribución condicionada de Y/X = xt, esto es, del parámetro mt = E(        )
 Y/X  = x
         t, se obtiene sustituyendo xt en el modelo de regresión. Obteniendo

          t ^mt = ^yt = xt^a.

Este estimador tiene las siguientes propiedades:

  1. Es un estimador centrado o insesgado, E(^mt) = mt = E(         )
 Y /X = xt
  2. La varianza del estimador m^t es V ar(m^t) = s2 htt, donde htt = xtt(XtX)-1xt es el valor de influencia o “leverage” asociado al vector xt. La interpretación de este valor es la expuesta en la sección 8.7

    Se define el inverso de htt como el número equivalente de observaciones para estimar mt, valor que se denota por nt = 1/htt.

    La interpretación de nt es la siguiente: la información que proporciona la muestra, de tamaño n, {(xi,Yi)}i = 1n para estimar mt es la misma que proporcionaría una muestra de tamaño nt de observaciones {(Y )}
   jj = 1nhde una población con distribución igual a la condicionada de Y/X = xt.

    Para todas las observaciones muestrales xi, i = 1,...,n, se verifica que

                  1 1 < ni < n <====> n-< hii <
1, = 1,... ,n.

    Además para cualquier valor de xt se verifica que el valor de nt será mayor cuanto más próximo esté xt de x y cuando xt = x se obtiene que nt = n, valor máximo que puede tomar. Inversamente, si la distancia entre xt y x crece entonces el valor de nt disminuye, y si esta distancia se hace infinitamente grande (se extrapola) el valor de nt se aproxima a cero.

  3. La distribución de m^t es normal. Por tanto,
     (
)   ^mt-mt m^t ~ N  mt,s2htt ==>  - V~ ---~ N (0,1)
                    s  htt
  4. Como en la práctica el parámetro s2 es desconocido, el estadístico pivote m^t no se puede utilizar para calcular intervalos de confianza y es necesario sustituir s2 desconocido por un estimador, ^s R2. Obteniendo el siguiente estadístico pivote ^wt

         ^m  m ^wt = --t- V~ --t-
     ^sR  htt
    (8.32)
    Por la hipótesis de normalidad se sigue que la distribución de ^wt es

         m^t- mt w^t = ^s- V~ h--~ tn-(k+1)
      R   tt
    (8.33)
  1. De (8.33) se obtiene que un intervalo de confianza de mt con un nivel de confianza a es

                 V~ ---        (     )
mt  (-  ^mt ± ^sR htttn-(k+1)  1-  a- .
                              2
    (8.34)

Al estimar una media condicionada utilizando el modelo de regresión se debe de tener en cuenta que los resultados son razonables dentro del rango de valores de las variables regresoras X (interpolar) donde se verifica que 1 < nt < n y, en particular, para xt = x se verifica que nt = n, y la estimación de mt tiene la menor varianza. Si xt es un vector alejado de x, entonces nt es pequeño y V ar(m^t) grande, obteniéndose estimaciones poco precisas. Finalmente, si se estima la media condicionada mt fuera del rango de valores de X (extrapolar), entonces puede ocurrir que nt~ =0, lo que hace que la precisión de la estimación de mt sea muy pequeña.

8.7.2 Predicción de una observación.

Se desea predecir el valor de la respuesta, Y , de un individuo del que se sabe que X = xt, utilizando el ajuste de un modelo de regresión lineal de la variable Y respecto al vector de variables regresoras X.

El predictor (^yh) que minimiza el Error Cuadrático Medio de Predicción, E(       2)
 (^yt- yt) viene dado por

^yt = xtt^a

Por tanto, la predicción de Y t = Y/X = xt es el mismo valor que se obtiene en la estimación de mt pero su varianza es mayor.

El predictor ^y t verifica las siguientes propiedades:

  1. La predicción es centrada, ya que, E(^yt) = E(Yt)
  2. La varianza de la predicción es,

    (Yt)

  3. Para calcular intervalos de predicción de yt se utilizará el siguiente estadístico pivote

    --^y V~ t--yt--~ tn-(k+1) ^sR  1+ htt
    (8.35)
  4. Un intervalo de predicción de yt con nivel de confianza a viene dado por

                               (     )
y   (-  ^y ± ^s V ~ 1-+-h-t       1-  a- .
 t   t   R       tt n-(k+1)      2
    (8.36)
     

Los intervalos de predicción que se obtienen son mucho mayores que los intervalos de confianza de la media condicionada mt ya que la varianza ha aumentado.

V
ar(^mt) = s2htt < < s2(1+ htt) = Var (^yt).