Multicolinealidad

Factor de inflación de alta varianza en multicolinealidad

El proceso o término de multicolinealidad en econometría es una situación en la que se presenta una fuerte correlación entre variables explicativas del modelo. La correlación ha de ser fuerte, ya que siempre existirá correlación entre dos variables explicativas en un modelo, es decir, la no correlación de dos variables es un proceso idílico, que sólo se podría encontrar en condiciones de laboratorio.[1][2]

Clases de colinealidad

Existen varios tipos de colinealidad.[3]

Multicolinealidad exacta

Afirmamos que hay colinealidad exacta, cuando una o más variables, son una combinación lineal de otra, es decir, existe un coeficiente de correlación entre estas dos variables de 1. Esto provoca que det ( X t X ) = 0 {\displaystyle \det(X^{t}X)=0} , es decir, la matriz X t X {\displaystyle X^{t}X} tenga determinante 0 {\displaystyle 0} y sea singular (no invertible).

Efectos y soluciones de la colinealidad exacta

Se da cuando el rango es menor al número de columnas: R g ( X ) = r < k   {\displaystyle Rg(X)=r<k\ }

Ordenamos las variables explicativas del modelo de manera que:

X = [ X r | X s = k r ] R g ( X r ) = r   {\displaystyle X=[X_{r}|X_{s=k-r}]\longleftrightarrow Rg(X_{r})=r\ }

Teniendo en cuenta que:

X s = X r M X = X r [ I r | M ] = X r Z Z = [ I r | M ] {\displaystyle X_{s}=X_{r}M\longleftrightarrow X=X_{r}[I_{r}|M]=X_{r}Z\longleftrightarrow Z=[I_{r}|M]}

Sustituimos en el Modelo:

X = X r Z Y = X r Z β + u Y = X β + u   {\displaystyle X=X_{r}Z\rightarrow Y=X_{r}Z\beta +u\leftarrow Y=X\beta +u\ }

Y llamamos a Z β = ϑ {\displaystyle Z\beta =\vartheta }

y si reescribimos el modelo tenemos:

Y = X r ϑ + u {\displaystyle Y=X_{r}\vartheta +u}

Cuando hay colinealidad exacta no podemos estimar los parámetros del modelo, lo que estimamos son combinaciones lineales de ellos que reciben el nombre de funciones estimables. Siendo en nuestro caso particular ϑ {\displaystyle \vartheta } nuestra función estimable.

Ejemplo de cómo operar con funciones estimables:

X = ( 1 4 8 1 2 4 1 5 10 1 7 14 1 9 18 1 12 24 1 13 26 1 1 2 ) {\displaystyle X={\begin{pmatrix}1&4&8\\1&2&4\\1&5&10\\1&7&14\\1&9&18\\1&12&24\\1&13&26\\1&1&2\end{pmatrix}}}

Como se puede ver, la tercera columna es el doble de la segunda, de manera que la matriz X'X es singular y en consecuencia no podríamos obtener el estimador MCO.

De manera que en virtud de lo visto anteriormente tenemos:

X r = ( 1 4 1 2 1 5 1 7 1 9 1 12 1 13 1 1 ) X s = ( 8 4 10 14 18 24 26 2 ) M = ( 0 2 ) Z = ( 1 0 0 0 1 2 ) {\displaystyle X_{r}={\begin{pmatrix}1&4\\1&2\\1&5\\1&7\\1&9\\1&12\\1&13\\1&1\end{pmatrix}}X_{s}={\begin{pmatrix}8\\4\\10\\14\\18\\24\\26\\2\end{pmatrix}}M={\begin{pmatrix}0\\2\end{pmatrix}}Z={\begin{pmatrix}1&0&0\\0&1&2\end{pmatrix}}}

De manera que:

ϑ = Z β = ( β 1 β 2 + 2 β 3 ) {\displaystyle \vartheta =Z\beta ={\begin{pmatrix}\beta _{1}\\\beta _{2}+2\beta _{3}\end{pmatrix}}}

Multicolinealidad aproximada

Afirmamos que hay colinealidad aproximada, cuando una o más variables, no son exactamente una combinación lineal de la otra, pero existe un coeficiente de determinación entre estas variables muy cercano al uno y por lo tanto:

| X X | 0 {\displaystyle |X'X|\simeq 0}

Efectos y soluciones de la colinealidad aproximada

El efecto de la multicolinealidad es el aumento de las varianzas de los estimadores de los coeficientes de regresión debido a :

| X X | 0 1 | X X | {\displaystyle |X'X|\simeq 0\longleftrightarrow {\frac {1}{|X'X|}}\approx \infty }

y al ser la Varianza de las perturbaciones:

C o v ( β ) = σ ϵ 2 ( X X ) 1 = σ ϵ 2 1 | X X | a d j ( X X )   {\displaystyle Cov(\beta )=\sigma _{\epsilon }^{2}(X'X)^{-1}=\sigma _{\epsilon }^{2}{\frac {1}{|X'X|}}adj(X'X)'\ }

Debido a esto y dado que para realizar el análisis estructural se necesita la varianza de los estimadores y al ser un componente de esta la inversa de |X'X| la convierte muy elevada, y en consecuencia las estimaciones son poco precisas y afecta negativamente al análisis estructural.

Otro efecto son que tenemos unas estimaciones sensibles a la muestra. Puesto que la función objetivo (suma de cuadrados de residuos) es muy plana en el entorno del óptimo, de modo que pequeños cambios en los valores de y o de X pueden dar lugar a cambios importantes en las estimaciones.

Detección de la colinealidad

Método del factor de inflación de la varianza

Partimos de que:

F I V ( β i ) = 1 1 R x i 2 T ( β i ) = 1 R x i 2 {\displaystyle FIV(\beta _{i})={\frac {1}{1-R_{xi}^{2}}}\longleftrightarrow T(\beta _{i})=1-R_{xi}^{2}}

De manera que podemos hacer un contraste de hipótesis, para ver si hay o no colinealidad para la i-ésima variable, habrá colinealidad cuando:

F I V ( β i ) > k 2 n k + 1 F 0 + 1 {\displaystyle FIV(\beta _{i})>{\frac {k-2}{n-k+1}}F_{0}+1}

Siendo F 0   {\displaystyle F_{0}\ } el cuantil de la distribución F de Snedecor con k - 2 y n – k + 1 grados de libertad.

Por este método analizamos la colinealidad que produce una determinada variable explicativa.

Autovalores y número de condición de |X'X|

Partimos de que:

| X X | = i = 1 k λ j {\displaystyle |X'X|=\displaystyle \prod _{i=1}^{k}\lambda _{j}}

Siendo:

λ j   {\displaystyle \lambda _{j}\ } i-ésimo autovalor de la matriz. Por tanto, podemos reducir el diagnóstico a comprobar si la matriz tiene algún autovalor próximo a cero.

I C ( X X ) = λ m a x λ m i n {\displaystyle IC(X'X)={\sqrt {\frac {\lambda _{max}}{\lambda _{min}}}}}

De manera que en función del número de condición tenemos:

10 I C 30 M o d e r a d a {\displaystyle 10\leq IC\leq 30\rightarrow Moderada}

I C > 30 G r a v e {\displaystyle IC>30\rightarrow Grave}

Por este método analizamos la colinealidad que producen todas las variables explicativas del modelo en su conjunto.

Método del determinante en la matriz de correlación de exógenas

En supuesto que no hay multicolinealidad fuerte, la matriz de correlación tiende a la matriz identidad, por lo cual su determinante tiende a la unidad.

Caso contrario, cuando hay multicolinealidad, la matriz de correlación dista de ser la identidad, y la determinante estará cercana a cero; entonces bajo esta situación se dice que hay indicios de multicolinealidad.

Solución de la colinealidad

  • Aumentar el tamaño muestral puede reducir un problema de colinealidad aproximada.
  • Si se suprimen variables que están correlacionadas con otras, la pérdida de capacidad explicativa será pequeña y la colinealidad se reducirá.
  • Trabajar con las series logaritmizadas.
  • Utilizar datos de corte transversal.
  • Desestacionalizar las series y quitarles la tendencia.

Referencias

  1. «Multicolinealidad». Consultado el 25 de febrero de 2020. 
  2. «El Concepto de Multicolinealidad». Consultado el 25 de febrero de 2020. 
  3. «Multicolinealidad». Consultado el 25 de febrero de 2020. 
Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q1332350
  • Identificadores
  • LCCN: sh85088343
  • NLI: 987007550841905171
  • Diccionarios y enciclopedias
  • Britannica: url
  • Wd Datos: Q1332350