Análisis de regresión lineal: concepto y características

Escrito y verificado por la psicóloga Paula Villasante

Publicado: 11 abril, 2019 02:15

Última actualización: 10 febrero, 2020 15:55

A veces, en la investigación, nos interesa saber si existe una relación lineal entre dos variables aleatorias. Es por eso que utilizamos el análisis de regresión lineal.

El coeficiente que nos permite obtener este dato es el coeficiente de correlación lineal de Pearson r, cuyo valor oscila entre -1 y +1 (1). En los casos en los que el coeficiente de regresión lineal se acerque a +1 o -1, tiene sentido considerar la ecuación de la recta que “mejor se ajuste” a la nube de puntos como un modelado aceptable de la asociación entre las dos variables.

Principalmente, esta recta nos permite estimar los valores de Y que obtendríamos para distintos valores de X. Estos conceptos quedarán representados en lo que llamamos diagrama de dispersión. Por otro lado, el procedimiento más usual para determinar la recta de mejor ajuste es el de mínimos cuadrados.

Hombre leyendo sobre estadística descriptiva en la tablet, análisis de regresión lineal

Un ejemplo de la utilización del análisis de regresión lineal

Pongamos que necesitamos realizar una investigación para una empresa. Esta quiere saber la relación entre las ventas de una empresa y sus gastos en publicidad. ¿Qué podemos hacer? El análisis de regresión lineal nos permite saber en qué grado los gastos en publicidad explican la variable ventas. Así, esta última variable será la variable dependiente del modelo, mientras que la variable explicativa o independiente serán los gastos en publicidad.

El uso de este modelo nos va a permitir observar qué influencia tienen los gastos de publicidad sobre el volumen de facturación o las ventas de la empresa (1). Para saberlo, contamos con la ecuación de la recta de regresión lineal. Para cuantificar la relación entre ambas variables y tener una aproximación de la magnitud de la influencia de los gastos en publicidad sobre las ventas de la empresa podemos estimar el modelo por mínimos cuadrados ordinarios (M.C.O.) donde se minimiza la suma de los cuadrados de los residuos.

Este residuo es la diferencia entre un valor observado y el valor estimado. Pero, ¿de qué nos sirve esta información? Pues bien, el objetivo es minimizar la suma de los cuadrados de los residuos. Sin embargo, hemos de tener en cuenta que a la hora de representar este análisis no todos los puntos se encontrarán dentro de la línea de regresión (de hecho, es raro que hay alguno). Si todos lo estuvieran y, además, si el número de observaciones fuera suficientemente grande, no habría ningún error de estimación. En ese caso, no habría ninguna diferencia entre el valor observado y el valor de predicción (1).

El error estándar de estimación

Así, en los casos reales, los ajustes absolutos del modelo a la realidad no se dan. Es por eso que existe una medida que describe cómo de precisa es la predicción de Y en función de X. O, al revés, lo inexacta que puede ser la estimación. A esta medida se le llama error estándar de estimación. Se utiliza en el análisis de regresión lineal para medir la dispersión alrededor de la línea de regresión.

Supuestos del modelo de regresión lineal

Si nuestras observaciones son una muestra aleatoria que viene de una población, entonces nos interesa realizar inferencias sobre la misma. Para que estas inferencias sean “estadísticamente razonables”, se han de cumplir las siguientes condiciones:

En la población, la relación entre variables X e Y debe ser aproximadamente lineal.
Los residuos se distribuyen según una curva normal de media 0.
Además, los residuos son independientes unos de otros.
Los residuos tienen varianza constante.

Así, este modelo de regresión lineal es bastante “robusto”. Ello quiere decir que no es necesario que las condiciones anteriores se cumplan con exactitud (en particular las tres últimas).

Inferencia en el modelo de regresión

Una vez que hemos calculado la recta de regresión y la bondad de ajuste que hemos conseguido con el modelo de regresión lineal, el siguiente paso es realizar un contraste de hipótesis en el que la hipótesis nula se corresponderá con la ausencia de relación y el rechazo de la hipótesis nula con la presencia de una relación significativa.

Para ello, debemos contrastar si la correlación entre ambas variables es distinta de cero o si el modelo de regresión es válido en el sentido de contrastar si el análisis de nuestra variable endógena (Y) es válido a través de la influencia de la variable explicativa (X).

En resumen, el análisis de regresión lineal se aplica a innumerables aspectos de la vida real. Se utiliza tanto en el ámbito social como el ámbito científico y es clave para entender algunas relaciones entre variables en estadística.

A veces, en la investigación, nos interesa saber si existe una relación lineal entre dos variables aleatorias. Es por eso que utilizamos el análisis de regresión lineal.

El coeficiente que nos permite obtener este dato es el coeficiente de correlación lineal de Pearson r, cuyo valor oscila entre -1 y +1 (1). En los casos en los que el coeficiente de regresión lineal se acerque a +1 o -1, tiene sentido considerar la ecuación de la recta que “mejor se ajuste” a la nube de puntos como un modelado aceptable de la asociación entre las dos variables.

Principalmente, esta recta nos permite estimar los valores de Y que obtendríamos para distintos valores de X. Estos conceptos quedarán representados en lo que llamamos diagrama de dispersión. Por otro lado, el procedimiento más usual para determinar la recta de mejor ajuste es el de mínimos cuadrados.

Un ejemplo de la utilización del análisis de regresión lineal

Pongamos que necesitamos realizar una investigación para una empresa. Esta quiere saber la relación entre las ventas de una empresa y sus gastos en publicidad. ¿Qué podemos hacer? El análisis de regresión lineal nos permite saber en qué grado los gastos en publicidad explican la variable ventas. Así, esta última variable será la variable dependiente del modelo, mientras que la variable explicativa o independiente serán los gastos en publicidad.

El uso de este modelo nos va a permitir observar qué influencia tienen los gastos de publicidad sobre el volumen de facturación o las ventas de la empresa (1). Para saberlo, contamos con la ecuación de la recta de regresión lineal. Para cuantificar la relación entre ambas variables y tener una aproximación de la magnitud de la influencia de los gastos en publicidad sobre las ventas de la empresa podemos estimar el modelo por mínimos cuadrados ordinarios (M.C.O.) donde se minimiza la suma de los cuadrados de los residuos.

Este residuo es la diferencia entre un valor observado y el valor estimado. Pero, ¿de qué nos sirve esta información? Pues bien, el objetivo es minimizar la suma de los cuadrados de los residuos. Sin embargo, hemos de tener en cuenta que a la hora de representar este análisis no todos los puntos se encontrarán dentro de la línea de regresión (de hecho, es raro que hay alguno). Si todos lo estuvieran y, además, si el número de observaciones fuera suficientemente grande, no habría ningún error de estimación. En ese caso, no habría ninguna diferencia entre el valor observado y el valor de predicción (1).

El error estándar de estimación

Así, en los casos reales, los ajustes absolutos del modelo a la realidad no se dan. Es por eso que existe una medida que describe cómo de precisa es la predicción de Y en función de X. O, al revés, lo inexacta que puede ser la estimación. A esta medida se le llama error estándar de estimación. Se utiliza en el análisis de regresión lineal para medir la dispersión alrededor de la línea de regresión.

Supuestos del modelo de regresión lineal

Si nuestras observaciones son una muestra aleatoria que viene de una población, entonces nos interesa realizar inferencias sobre la misma. Para que estas inferencias sean “estadísticamente razonables”, se han de cumplir las siguientes condiciones:

En la población, la relación entre variables X e Y debe ser aproximadamente lineal.
Los residuos se distribuyen según una curva normal de media 0.
Además, los residuos son independientes unos de otros.
Los residuos tienen varianza constante.

Así, este modelo de regresión lineal es bastante “robusto”. Ello quiere decir que no es necesario que las condiciones anteriores se cumplan con exactitud (en particular las tres últimas).

Inferencia en el modelo de regresión

Una vez que hemos calculado la recta de regresión y la bondad de ajuste que hemos conseguido con el modelo de regresión lineal, el siguiente paso es realizar un contraste de hipótesis en el que la hipótesis nula se corresponderá con la ausencia de relación y el rechazo de la hipótesis nula con la presencia de una relación significativa.

Para ello, debemos contrastar si la correlación entre ambas variables es distinta de cero o si el modelo de regresión es válido en el sentido de contrastar si el análisis de nuestra variable endógena (Y) es válido a través de la influencia de la variable explicativa (X).

En resumen, el análisis de regresión lineal se aplica a innumerables aspectos de la vida real. Se utiliza tanto en el ámbito social como el ámbito científico y es clave para entender algunas relaciones entre variables en estadística.