Como se comentó anteriormente hay dos objetivos básicos en el ajuste de un modelo de regresión:
En esta sección se estudia este segundo objetivo. Ésto es, estimada la recta de regresión, ¿cómo predecir el valor de Y sabiendo que la variable regresora toma el valor X = xt? Ante esta pregunta, se deben distinguir dos situaciones diferentes:
Una vez calculada la recta de regresión de la variable Y respecto a X,
se quiere estimar el
parámetro mt
= E
. Para ello, como estimador se utiliza el que
proporciona la recta de regresión, sustituyendo xt
por x
en la ecuación de la recta,
|
|
|
Teniendo en cuenta que en una muestra de
tamaño n, la varianza de la
media muestral es
V ar
=
2/n, la interpretación de nt
es la siguiente: “la información que proporciona la muestra,
de tamaño
n, de
datos bivariantes
i =
1n para
estimar mt es la
misma que
proporcionaría
una muestra de tamaño
nt de
observaciones univariantes de una población con
distribución
igual a la de Y/X = xt”.
De la expresión
de nt se deduce que
este valor será mayor cuanto
más próximo esté xt de
. Y si
xt
=
se verifica que nt
= n.
La inversa de nt, htt =
1/nt se denomina
valor de influencia de la
observación xt
(muy
utilizado el nombre en inglés leverage)
y se verá más
adelante que es una medida de la influencia
de la observación
(si este es uno de los datos muestrales) en el
cálculo de la recta de
regresión.
En la práctica
el estadístico anterior no se
puede utilizar para calcular intervalos de confianza de
mt
porque
es desconocido. Por ello, se sustituye
por su
estimador
R y
bajo la hipótesis de
normalidad se obtiene la siguiente
distribución,
|
La distribución dada en (6
.22) permite calcular intervalos de confianza de mt
con un nivel de confianza
,
de la siguiente forma,
|
Al
utilizar el modelo de regresión
lineal para estimar una media condicionada o predecir una
observación debe de tenerse en cuenta que el
método proporciona resultados
aceptables dentro del rango de valores
muestrales de la X (interpolar),
aquí está garantizado que 1 < nt
< n. Si xt
es un punto muy alejado de
(aún estando dentro de la nube de
observaciones está muy alejado
del centro de la misma) entonces
nt
1 y
la varianza de
t será muy grande
con lo que se obtienen estimaciones con poca precisión (mucha
variabilidad). El caso opuesto es que xt
=
y, por tanto, nt
= n,
ahora la varianza de
t es
2/n, la menor posible.
Por otra parte, si se
quiere predecir fuera del rango de valores muestrales de
X (extrapolar),
entonces xt
-
puede ser muy grande y, en
consecuencia, nt
0,
lo que hace que la precisión de
la estimación de mt
sea muy pequeña por tener el estimador
t una varianza
muy grande y, por tanto, obtener
resultados con muy poca validez.
Se
quiere predecir el valor de la variable aleatoria Y/X = xt
teniendo en cuenta que se ha ajustado
una recta de regresión. El problema es conceptualmente diferente
del anterior, ya que en el apartado anterior se estima un parámetro (la media condicionada) y ahora se
quiere predecir el resultado de una
variable aleatoria. El predictor que se
utiliza
t se
obtiene como aquel que minimize el Error Cuadrático Medio
de Predicción. Esto es,
t se obtiene como
el valor que minimiza la siguiente función
Al resolver este problema de minimización se obtiene como predictor el resultado de sustituir el valor de xt en la recta de regresión calculada,
Por tanto, la predicción de Y/X
= xt
es la misma que la estimación de mt
pero su varianza aumenta ya que la variabilidad debida a la muestra
se incrementa con la
variabilidad propia de la variable
aleatoria que se quiere predecir
. Ahora la varianza de la predicción es
| Var( |
Por la hipótesis de normalidad y razonando como en el apartado anterior se obtiene
|
|
|
|