6.11 Análisis de un caso de un modelo de regresión lineal simple.

En esta sección se presenta el desarrollo en detalle de un supuesto práctico del modelo de regresión lineal simple, en los cálculos se utiliza toda la teoría expuesta en este capítulo.

Ejemplo 6.3.

 “Se desea estudiar la posible relación entre los gastos en material informático, en múltiplos de cien mil euros, de una empresa (Y) y sus ingresos globales, en millones de euros, (X). Para ello se recoge una muestra de datos anuales de gastos e ingresos de 65 empresas, los datos muestrales son los de la tabla adjunta. Estudiar la posible existencia de una relación lineal entre la variable respuesta gasto en material informático y la variable regresora ingreso global”.









X: “Ingresos
    globales
 
20 50 100 200 300 400 500








Y
“gastos en
 material
informát.”
25
13
43
36
30
14
17
7
.
.
15
25
28
17
35
29
20
26
14
6
25
61
46
23
45
28
24
37
.
.
57
46
54
69
62
71
67
36
41
62
75
107
72
53
53
77
63
74
87
.
91
94
100
93
92
90
109
97
111
87
121
113
90
109
118
117
125
121
122
119








Estadísticos básicos de las variables X e Y.
  6 sum 5                   --
     xi  =  15.160  ==>  x = 233'231,
  i=1
  sum 65                          ---
     x2  =  5.418.200   ==>  s2 = x2 - x2 = 28.960'3,
 i=1  i                    X

  6 sum 5                --    '
     yi  =  4.071 ==> y = 62 63
  i=1
  6 sum 5
     y2i  =  339.117 ==> s2Y = 1.294'57,
  i=1
 65
 sum                             ---  ---       '
   xiyi  =  1.326.730 ==>  sXY = xy - xy = 5.803 81.
i=1

Estimadores de los coeficientes de la recta de regresión son

        sXY    5.803'81    '
^a1  =   -s2- = 28.960'3-= 0 2004,
          X
        --    --    '     '        '        '
^a0  =   y- ^a1 x = 6263 - 02004 .233 231 = 1589,
la recta de regresión estimada es
      '     '
^y = 1589 + 0 2004x,

o bien,

(      ' )    '     (      '   )
 ^y - 6263  = 0 2004 x - 233 231 ,

que indica que por cada millón de euros de ingreso en una empresa se utiliza 20.040 euros en material informático.

Figura 6.9. Datos y recta ajustada.

Figura 6.10. Residuos del modelo.

Se calculan las predicciones de las observaciones muestrales (^yi) y los residuos (ei), a partir de los cuales se obtiene la varianza residual
       65
scR =  sum  e2 = 8.544'68 ==>  ^s2 = --1---8.544'68 = 135'63.
      i=1 i               R   65 - 2

Intervalos de confianza al 95%  (a = 0'05) para los tres parámetros del modelo.

Para s2

        2             '
(n---2)^sR- =   63-.135-63~  x2n-2 = x263   ==>
   s2              s2 '
    42'928  <   63-.135-63<  87'097 ==>
                   s2
  6.544'69-      2   6.544'69-
   87'097   <   s <   42'928    ==>
     98'11  <   s2 < 199'05

Para a0,

                 (      )          (             )
              ^s2R-     x2-    135'63      233'2312-     '
V ar(^a0)  =   n   1 + s2  =    65    1+  28.960'3   = 6006 ==>
               '       x
   s(^a0)  =   2451
        ^a0--a0--
w0  =   s (^a0) ~  t63 ==>
         '      '       ( '  )     '     '     '
a0   (-  15 89 ± 2451 .t63( 0 975  = 1)589 ± 2 451.1 9988 ==>
a0   (-  15'89 ± 4'899 =  10'99,20'79

Para a1,

            ^s2      135'63
V ar(^a1) = --R2-=  ---------'-=  0'0000721 ==>  s(^a1) = 0'0084883
           nsx    65.28.960 3

 

w    =  ^a1---a1-~ t  ==>
  1      s (^a1)    63
a1    (-  0'2004±  0'0084883 .t63(0'975)=  0'2004± 0'016966 ==>
        ( '      '   )
a1    (-   0 1834,02200

Nota: si se hubiese planteado el problema de forma inversa y se quisiera calcular la recta de regresión del ingreso (X) respecto al gasto (Y ),  se obtiene,

x = - 47'5548 + 4'4832 y.

o despejando, para comparar con la recta de regresión de Y sobre X,

y = 10'6074+ 0'2231x.

Se comprueba que las dos rectas de regresión no coinciden (observar la Figura 6.11.).

Figura 6.11. Gráfica de las dos rectas de regresión.

Contrastes individuales (contrastes de la t).

Contraste C1, H0 : a1 = 0 frente a H1 : a1/=0.  

         ^a1     ^a1   V~ --
^t1  =   s-(a^-) = ^s-sx  n ~ tn-2 ==>
          '1     R
^t1  =   --02004-- = 23'60 ~ t63.
       0'0084883
            '
p - valor = 0 0000 ==> Se rechaza H0 (contraste de la t).

Del p-valor próximo a cero1 se concluye que la variable regresora X influye linealmente en la variable dependiente Y.

Contraste C0, H0 : a0 = 0 frente a H1 : a0/=0.

         ^a            ^a        V~ --
^t0  =  ---0-- = ---(---0----)-  n ~ tn- 2 ==>
       s (^a0)             x2
                ^sR V~   1 + s2-
                           x
       15'890    '
^t0  =   2'451 = 6 484 ~ t63
            '
p- valor = 0000 ==>  Se rechaza H0 (contraste de la t).

Tabla ANOVA. Contraste de regresión.

Con los datos del problema se obtiene la siguiente tabla ANOVA

Tabla ANOVA





Fuentes Variación Suma Cuadrados Gr. libertad Varianzas








Por la recta
75.602'5
1
s^ e2 = 75.602'5




Residual
8.544'7
63
s^ R2 = 135'6




Global
84.147'1
64
^s Y 2 = 1.314'8




El contraste de la F es
               ^s2e   75.602'5       '
      F^R   =   ^s2-= -135'6--= 557 42 ~ F1,63 ==>
                R(          '  )    '
p - valor  =  P  F1,63 > 557 42 = 00000,
se rechaza la no influencia de la recta de regresión. Este resultado es exactamente el mismo que se obtiene en el contraste individual de la t relativo a a1. El motivo es que se está estudiando un modelo de regresión con una sola regresora y, por tanto, el estudio de la influencia del modelo es equivalente al estudio de la influencia de la única regresora. El significado de los contrastes individuales de la t y del contraste conjunto de la F (contraste de regresión) serán diferentes en modelos de regresión con más de una variable explicativa.

Contraste de linealidad.

Dado que para cada valor de X se tienen varios valores de Y se pueden calcular las medias muestrales condicionadas, lo que permite descomponer la suma de los residuos al cuadrado y obtener la siguiente tabla ANOVA

Tabla ANOVA





Fuentes Variación Suma Cuadrados Gr. libertad Varianzas








Por la recta
75.602'5
1
s^ e2 = 75.602'5




scR(1)
314'7
5
s^ R,12 = 62'94




scR(2)
8.229'9
58
s^ R,22 = 141'89




Residual
8.544'7
63
^s R2 = 135'6




Global
84.147'1
64
^s Y 2 = 1.314'8




Se calcula el estadístico del contraste de linealidad de la F
              ^s2R,1    62'94    '
      ^FL  =   ^s2--=  141'89-= 0 44 ~ F5,58 ==>
               R,2(          )
p- valor  =   P F5,58 > 0'44 = 0'8162.

Se acepta claramente la hipótesis de que la función de regresión es lineal.

Coeficiente de determinación y correlación lineal simple.

El coeficiente de determinación es

      VE    75.602'5
R2 =  ----= ------'-=  0'8985.
      VT    84.1471

El modelo de regresión lineal construído explica el 89'85% de variabilidad de la variable respuesta.

El coeficiente de correlación lineal muestral es,

     V~ ------
r =   0'8985 = 0'9478.

Existe una alta correlación positiva.

Estimación de la media condicionada.

“Se quiere estimar el gasto medio en material informático de las empresas cuyos ingresos globales son de 300 y 800 millones anuales, respectivamente. Calcular intervalos de confianza al 90% para dichas medias condicionadas.”

Para las empresas con 300 millones de ingresos se obtiene

                            '     '    (         '   )    '
m^(300) =  y + ^a1 (xt- x) = 62 63+ 0 2004 300 - 233 231 = 76 011.

Se calcula el número de observaciones equivalentes

n(300) = ---(--n----)--=  ---(-----65------)---= 56'328.
         1+   xt---x 2         300--233'231- 2
                sX        1+      170'177

La varianza del estimador es

              2         '
V ar(^mt) = --^sR---= 135-63 = 2'4078 ==> s (^mt) = 1'5517.
           n(300)   56'328

El intervalo de confianza es

m(300)   (-   76'011 ± t  (0'95)1'7044 = 76'011±  2'590,
            ( '      63'   )
m(300)   (-   73 420,78 601 .

Para x = 800, se obtiene

                       (            )
^m(800) = 62'63+  0'2004  800- 233'231 =  176'214,

n(800) = ----(-n----)-- = ----(----65-------)--= 5'375,
               xt--x- 2        800---233'231 2
         1 +    sX        1 +     170'177

V ar (m^ ) = --^s2R---= 135'63 = 25'231 ==>  s(m^ ) = 5'023,
       t    n(800)   5'375                 t

 

               '        ( '  ) '         '      '
m(800)    (-  176 214± t63 0 95 5 023 = 176214 ± 8 385,
m(800)    (-  (167'828,184'599).

Comparando los intervalos de confianza obtenidos se observa que el relativo a x = 800 tiene una longitud mucho mayor que en el caso de x = 300. Esto es debido a que el punto x = 300 está más cerca de la media muestral x = 233'231 que el segundo punto x = 800.

Predicción.

“Predecir el gasto en material informático de la empresa MEGA1 y MEGA2 cuyos ingresos globales son de 300 y 800 millones, respectivamente. Calcular intervalos de predicción al 90% para dichas predicciones”.

Para la empresa MEGA1, con x = 300, la predicción de gasto es

^y(300) = 76'011.

Con varianza

                 ^s2
V ar(^yt) = s^2R + --R---=  138'0378 ==>  s(^yt) = 11'7489.
                n(300)

El intervalo de predicción es

                       (   )
 y(300)  (-   76'011 ± t63 0'95  11'7489 = 76'011 ± 19'6137,
y (300)  (-   (56'397,95'625).

Para la empresa MEGA2, con x = 800, se obtiene la predicción

            '
y^(800) = 176 214.

                 (      1  )
Var (^mt) = 135'63  1 + -'---  = 160'863 ==> s (^yt) = 12'683.
                      5 375

El intervalo de predicción es

                        (   )
 y(800)  (-   176'214 ± t63 0'95  12'683 = 176'214 ± 21'173,
            (   '      '   )
y (800)  (-    155041,197 387 .

En el cuadro adjunto se comparan las longitudes de los intervalos de confianza obtenidos




Longitud de los I.C. al 90% x = 300 x = 800



Estimación de mt
5'180
16'770



Predicción de yt
39'227
42'346



En la Figura 6.12. se representa la nube de puntos del problema estudiado, la recta de regresión estimada, los intervalos de confianza de las medias condicionadas al 90% (los más próximos a la recta) y los intervalos de predicción al 90%.

Figura 6.12. Recta de regresión