6.9 Predicción en regresión lineal simple.

Como se comentó anteriormente hay dos objetivos básicos en el ajuste de un modelo de regresión:

- Conocer la relación existente entre la variable respuesta y las variables regresoras. En el caso de la regresión lineal simple se estima la mejor recta de regresión que relaciona la variable Y con la variable X y se cuantifica la importancia de dicha relación por medio del coeficiente de correlación, r.
- Utilizar el modelo de regresión ajustado para “predecir” el valor de la variable respuesta Y cuando la variable regresora toma un valor determinado, X = xt.

En esta sección se estudia este segundo objetivo. Ésto es, estimada la recta de regresión, ¿cómo predecir el valor de Y sabiendo que la variable regresora toma el valor X = xt? Ante esta pregunta, se deben distinguir dos situaciones diferentes:

Estimar la media de la distribución condicionada de Y/X = xt : E(Y/X = xt) = mt.
Se quiere responder a preguntas del tipo: “¿cuál es el gasto medio en material informático de las empresas que tienen unos ingresos globales de 300 millones anuales?”.
Predecir el valor de la variable respuesta en un individuo de la población en estudio del que se sabe que X = xt. Esto es, predecir un valor de la variable condicionada Y/X=xt
Se quiere responder a preguntas del tipo: “La empresa MEGA tiene unos ingresos anuales de 300 millones, ¿cuál será el gasto en material informático de esta empresa?”.

6.9.1 Estimación de las medias condicionadas.

Una vez calculada la recta de regresión de la variable Y respecto a X,

^y = ^a0 + ^a1x = y+ ^a1 (x - x),

se quiere estimar el parámetro mt = E(Y /X = xt). Para ello, como estimador se utiliza el que proporciona la recta de regresión, sustituyendo xt por x en la ecuación de la recta,

^mt = ^yt = ^a0 + a^1xt = y+
^a1(xt- x).
(6.19)
Este estimador verifica las siguientes propiedades:
  1. Es centrado o insesgado, E(^m )
   t = mt.
  2. La varianza es,

                 (             2   ) V
ar(^m ) = s2 1-+ ---(xt---x)---  = s2-= s2h ,
      t       n    sum ni=1(xi- x)2   nt      tt
    (6.20)
    donde

    nt = ---(-n----)2-
     1+  xt---x
           sX
    (6.21)
    nt se denomina número equivalente de observaciones para estimar mt.

    Teniendo en cuenta que en una muestra de tamaño n, la varianza de la media muestral es V ar(x) = s2/n, la interpretación de nt es la siguiente: “la información que proporciona la muestra, de tamaño n, de datos bivariantes {(xi,Yi)}i = 1n  para estimar mt es la misma que proporcionaría una muestra de tamaño nt de observaciones univariantes de una población con distribución igual a la de Y/X = xt”.

    De la expresión de nt se deduce que este valor será mayor cuanto más próximo esté xt de x. Y si xt = x se verifica que nt = n.

    La inversa de nt, htt = 1/nt se denomina valor de influencia de la observación xt (muy utilizado el nombre en inglés leverage) y se verá más adelante que es una medida de la influencia de la observación (xt,Yt) (si este es uno de los datos muestrales) en el cálculo de la recta de regresión.

  3. La distribución del estimador ^mt es normal,
           (     2) ^mt ~ N  mt, s-
==> m^t--mt V~ nt- (-  N (0,1).
            nt       s

  4. En la práctica el estadístico anterior no se puede utilizar para calcular intervalos de confianza de mt  porque s es desconocido. Por ello, se sustituye s por su estimador ^s R y bajo la hipótesis de normalidad se obtiene la siguiente distribución,

    m^t---mt V~ --
   ^sR     nt  (-  tn-2.
    (6.22)

La distribución dada en (6 .22) permite calcular intervalos de confianza de mt con un nivel de confianza a, de la siguiente forma,

                   (     )
mt  (-  ^mt ±  V~ ^sR-tn-2 1 - a
            nt          2
(6.23)

 

Al utilizar el modelo de regresión lineal para estimar una media condicionada o predecir una observación debe de tenerse en cuenta que el método proporciona resultados aceptables dentro del rango de valores muestrales de la X (interpolar), aquí está garantizado que 1 < nt < n. Si xt es un punto muy alejado de x (aún estando dentro de la nube de observaciones está muy alejado del centro de la misma) entonces nt~=1 y la varianza de m^t será muy grande con lo que se obtienen estimaciones con poca precisión (mucha variabilidad). El caso opuesto es que xt = x y, por tanto, nt = n, ahora la varianza de m^ t es s2/n, la menor posible.

Por otra parte, si se quiere predecir fuera del rango de valores muestrales de X (extrapolar), entonces xt -x puede ser muy grande y, en consecuencia, nt~=0, lo que hace que la precisión de la estimación de mt sea muy pequeña por tener el estimador ^mt una varianza muy grande y, por tanto, obtener resultados con muy poca validez.

6.9.2 Predicción de una observación.

Se quiere predecir el valor de la variable aleatoria Y/X = xt teniendo en cuenta que se ha ajustado una recta de regresión. El problema es conceptualmente diferente del anterior, ya que en el apartado anterior se estima un parámetro (la media condicionada) y ahora se quiere predecir el resultado de una variable aleatoria. El predictor que se utiliza ^y t se obtiene como aquel que minimize el Error Cuadrático Medio de Predicción. Esto es, y^ t se obtiene como el valor que minimiza la siguiente función

            (       2) Y (z) =
miznE (z- Yt)  .

Al resolver este problema de minimización se obtiene como predictor el resultado de sustituir el valor de xt en la recta de regresión calculada,

^yt = a^0 + ^a1xt = y + ^a1(xt-
x).

Por tanto, la predicción de Y/X = xt es la misma que la estimación de mt pero su varianza aumenta ya que la variabilidad debida a la muestra (Var (m^t)) se incrementa con la variabilidad propia de la variable aleatoria que se quiere predecir (V ar(yt)). Ahora la varianza de la predicción es

  

Var(y^t - yt) =                      (      )
Var(^y ) = s2 + s2= s2 1 + 1-
     t        nt          nt

Por la hipótesis de normalidad y razonando como en el apartado anterior se obtiene

-^y V~ t--yt---            --^y V~ t--yt---
s  1+ htt ~ N (0,1) ==> ^sR  1 + htt ~ tn-2.              (6.32.)
Utilizando esta distribución se puede calcular un “intervalo de predicción” para yt, con un nivel de confianza a, de la siguiente forma

             -------    (      )
yt  (-  ^yt± ^sR V~  1 + htt tn- 2 1 - a-
                             2
Por ser la var(^yt) mucho mayor que la var(^mt),  los intervalos de predicción de yt son mucho mayores que los intervalos de confianza de mt.