Coeficiente de correlación de Pearson

19 marzo, 2019
Este artículo fue redactado y avalado por la psicóloga Paula Villasante
En principio, el coeficiente de Spearman es simplemente un caso especial del coeficiente de Pearson. En él, los datos se convierten en rangos antes de calcular el coeficiente.

La correlación entre dos variables permite hacernos una idea del grado de asociación o covariación que existe entre esas dos variables. Así, los coeficientes de correlación son una especie de representación numérica de la relación existente entre las 2 variables (1). Pero, ¿qué es el coeficiente de correlación de Pearson?

Bravais ya hizo una aproximación a lo que hoy conocemos como el coeficiente de correlación de Pearson en 1846. Sin embargo, fue Karl Pearson el primero en describir, en 1896, el método estándar de su cálculo y demostrar que es el mejor posible.

Pearson también ofreció algunos comentarios sobre una extensión de la idea hecha por Galton. Fue este último quien la aplicó a los datos antropométricos. Pearson llamó a este método el método de «momentos de producto» (o la función de Galton para el coeficiente de correlación r).

El coeficiente de correlación de Person está asociado al ajuste de modelos muy comunes en estadística, como puede ser el análisis de regresión, funcionando su cuadrado -coeficiente de determinación- como un indicador de bondad de ajuste.

Así, el propio Pearson (1896) nos habló de la necesidad de que las variables analizadas (correlacionadas, analizadas) cumplieran ciertos supuestos, como el de normalidad.

Por otro lado, en Spearman (1904) señaló:

“El requisito más fundamental es poder medir nuestra correspondencia observada mediante un simple símbolo numérico. No hay ninguna razón para estar satisfecho con generalidades vagas como «grande», «medio», «pequeño» o, por otro lado, con tablas y compilaciones complicadas. La primera persona en ver la posibilidad de este inmenso avance parece haber sido Galton.»

– Spearman, 1904-

Personas haciendo estadística y hablando sobre los tipos de validez

El coeficiente de correlación de Spearman y su función

El coeficiente de correlación de Spearman es un estadístico de rango no paramétrico (sin distribución de probabilidad asociada). Fue propuesto como una medida de la fuerza de la asociación entre dos variables. Es una medida de una asociación monótona que se usa cuando la distribución de datos hace que el coeficiente de correlación de Pearson sea engañoso.

El coeficiente de Spearman no es una medida de la relación lineal entre dos variables, como declaran algunos «estadísticos». Evalúa en qué grado una función monótona arbitraria puede describir la relación entre dos variables.

A diferencia del coeficiente de correlación de Pearson, no asume que la relación entre las variables es lineal. Tampoco requiere que las variables se midan en escalas de intervalo; también se puede utilizar para variables medidas a nivel ordinal.

En principio, el coeficiente de Spearman es simplemente un caso especial del coeficiente de Pearson. En él, los datos se convierten en rangos antes de calcular el coeficiente.

Supuestos que fundamentan al coeficiente de correlación

Los supuestos que fundamentan el coeficiente de correlación de Pearson son los siguientes (2):

  • La distribución conjunta de las variables (X, Y) debe ser normal bivariada.
  • En términos prácticos, para validar dicho supuesto se debe observar que cada variable se distribuye de forma normal. Si una sola de las variables se desvía de la normalidad, tampoco es normal la distribución conjunta.
  • Debe existir una relación de tipo lineal entre las variables (X, Y).
  • Para cada valor de X, hay una subpoblación de valores de Y normalmente distribuidas.
  • Las subpoblaciones de valores Y tienen varianza constante.
  • Los promedios de la subpolaciones de Y tienen ubicación en la misma línea recta.
  • Las subpoblaciones de X tienen varianza constante.
  • Las medias de las subpoblaciones de X se encuentran en la misma línea recta.
  • Para cada valor de Y hay una subpolación de valores X que están normalmente distribuidas.
Personas haciendo estadística, coeficiente de correlación de Pearson

Conclusión

Así, al analizar tanto los coeficientes de Pearson como los de Spearman, uno podría esperar que el significado de uno implicaría el significado del otro. Por otro lado, una implicación inversa no necesariamente parece ser lógicamente verdadera. Así, la importancia de la correlación de Spearman puede llevar a la importancia o no importancia del coeficiente de correlación de Pearson. Esto ocurre incluso para grandes conjuntos de datos (1).

Por otro lado, es mejor no utilizar el coeficiente de correlación de rango de Spearman como una medida de concordancia, como la que podemos necesitar para calibrar un instrumento. Por otro lado, es una medida muy útil cuando contamos con muchos valores extremos (se viola el supuesto de normalidad).

  1. Müller, R., & Büttner, P. (1994). A critical discussion of intraclass correlation coefficients. Statistics in medicine, 13(23‐24), 2465-2476.
  2. Restrepo, L. F., & González, J. (2007). From pearson to Spearman. Revista Colombiana de Ciencias Pecuarias, 20(2), 183-192.
  3. Altman, D. G. (1990). Practical statistics for medical research. CRC press.