Las medidas de dispersión en estadística
En la estadística descriptiva, las medidas de dispersión tienen un papel muy importante, ya que complementan a las de posición central a través de la caracterización de la variabilidad de los datos. Por eso, dentro de las investigaciones son tan invaluables.
Mientras las medidas de tendencia central (media, moda, mediana) indican valores con respecto a los que los datos parecen agruparse, las de dispersión señalan la distribución de los elementos. En este artículo, profundizaremos más en ellas y conoceremos sus diferentes tipos.
¿Qué son las medidas de dispersión?
En líneas generales, indican el grado de probabilidad en que los datos numéricos varíen con relación a un valor promedio. En otras palabras, son aquellos valores que reflejan el grado de separación entre los datos de una distribución estadística, con respecto a las medidas de tendencia central consideradas.
Asimismo, se expresan en números reales no negativos, y el valor será 0 cuando todos los datos de la distribución sean iguales. Por tanto, a mayor dispersión de los mismos, mayor será el valor numérico de la dispersión.
¿Para qué sirven las medidas de dispersión?
En un estudio estadístico, a la hora de generalizar los datos de una muestra, las medidas de dispersión son muy importantes, pues condicionan de manera directa el error con el que trabajemos. Así, cuanta más dispersión recojamos en una muestra, más tamaño necesitaremos para trabajar con el mismo error. Veamos para qué más sirven.
1. Identificar la variabilidad en los datos
Como ya hemos visto, una de sus principales funciones es determinar el grado de dispersión de los datos con respecto al centro. En un conjunto de datos donde se tiene una baja dispersión se puede inferir que los valores son más cercanos a la media central y más consistentes.
2. Comparar diferentes datos
Mediante las medidas de dispersión se puede comparar la variabilidad de diferentes conjuntos de datos. Esto es muy útil en investigaciones multidisciplinarias, donde se analizan diferentes variables.
3. Normalizar datos para hacer análisis comparativos
Estas medidas estadísticas sirven también para contrastar la dispersión de conjuntos de datos que tienen unidades de medida o medias distintas. De esta manera, los investigadores pueden saber qué conjunto tiene mayor variabilidad relativa, con independencia de la magnitud o escala de los datos.
4. Interpretar resultados
Son útiles para interpretar de manera correcta otros resultados estadísticos. Por ejemplo, en los análisis de regresión, una alta varianza en los errores puede señalar que el modelo está mal ajustado. Es decir, es posible que no esté capturando bien la relación entre las variables independientes y dependientes.
5. Identificar anomalías
La dispersión permite reconocer patrones y anomalías. Puede indicar que hay valores atípicos que podrían ser errores de medición. Además, le ayuda a los analistas de datos a discernir entre fluctuaciones o variaciones normales y eventos poco usuales.
6. Evaluar la precisión de estimaciones
Las medidas de dispersión también son esenciales para estimar parámetros poblacionales a partir de una muestra. Cuanto menor sea la dispersión en los datos de la muestra, mayor precisión se espera en la estimación de parámetros como la media o la desviación estándar poblacional.
Cuáles son las medidas de dispersión
Estas medidas son muy útiles para comparar distribuciones y comprender los riesgos en la toma de decisiones. A mayor dispersión, menos representativo es el valor central. En general, se dividen en dos tipos: absolutas y relativas.
Medidas de dispersión absolutas
Son aquellas que tienen las mismas unidades que el conjunto original de datos. Se usan para reconocer las variaciones alrededor del promedio de las desviaciones. Entre ellas destacan las siguientes:
1. Rango
En primer lugar, el rango está recomendado para una comparación primaria. De esta manera, considera solo las dos observaciones extremas. Por eso, se recomienda solo para muestras pequeñas. Se define como la diferencia entre el último valor de la variable y el primero.
R= Xmax – Xmin
En esa fórmula:
Xmax: es el valor máximo de la muestra.
Xmin: es el valor mínimo de la muestra.
Algunas de sus características son las siguientes:
- Fácil de calcular.
- No incluye todos los datos.
- Sensible a valores extremos.
- Se puede usar en muestras pequeñas.
- No refleja la distribución de los datos.
2. Desviación estadística
Por su parte, la desviación media indica dónde estarían concentrados los datos si todos estuvieran a la misma distancia de la media aritmética. Consideramos la desviación de un valor de la variable como la diferencia en valor absoluto entre ese valor de la variable y la media aritmética de la serie. Así pues, se considera como la media aritmética de las desviaciones.
Dm= Σ | Xi – X̄ | / N
En esta fórmula:
Σ: es la sumatoria de los términos que siguen.
Xi: es el valor individual en el conjunto de datos.
X̄: es la media aritmética del conjunto de datos.
N: es el número total de observaciones o datos en el conjunto.
Entre sus características hallamos:
- Analiza la volatilidad de un activo financiero.
- Ayuda a establecer la precisión de resultados.
- Compara datos para determinar su dispersión.
- Determina cuánto varían los datos del promedio.
3. Varianza
La varianza es una función algebraica de todos los valores, apropiada para tareas de estadística inferencial. Se puede definir como las desviaciones al cuadrado.
S²= Σ (Xi – X̄)² / N
Algunos aspectos destacar de la varianza son:
- Indica el grado de dispersión de un conjunto de datos.
- Cuanto más grande sea la dispersión, mayor es la varianza.
- Tiene la desventaja de darle un peso adicional a los valores atípicos.
4. Desviación estándar o típica
Para muestras extraídas de la misma población, la desviación estándar es de las más utilizadas. La desviación típica es la raíz cuadrada de la varianza.
S= √Σ (X – x̅)² / N
Es la medida de dispersión que mejor proporciona la variación de los datos con respecto a la media aritmética. Su valor se relaciona directamente con la dispersión de los datos: a mayor dispersión de ellos, mayor desviación típica; y a menor dispersión, menor desviación típica.
Observaciones sobre la desviación típica:
- Al igual que la media y la varianza, es un índice muy sensible a las puntuaciones extremas.
- En los casos que no se pueda hallar la media, tampoco será posible hallar la desviación típica.
- Cuanta más pequeña sea la desviación típica, mayor será la concentración de datos alrededor de la media.
Medidas de dispersión relativas
Son aquellas que se utilizan para contrastar la distribución de varios conjuntos de datos. Las medidas de dispersión relativas son las siguientes:
1. Coeficiente de rango
Es la relación entre la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos, y la suma del valor máximo y el valor mínimo.
CD= (X máx – X mín ) ⁄ (X máx + X mín )
2. Coeficiente de variación
Se trata de una medida utilizada principalmente para comparar la variación entre dos conjuntos de datos medidos en diferentes unidades. Por ejemplo, estatura y peso corporal de los alumnos de una muestra. Así, se utiliza para determinar en qué distribución están más agrupados los datos y la media es más representativa.
CV= Sx/x̅
Los signos de la fórmula significan:
- Sx: desviación típica.
- X̄: media de la variable X en valor absoluto, con la condición de que no sea igual a cero.
El coeficiente de variación es una medida de dispersión más representativa que las anteriores, porque es un número abstracto. Es decir, es independiente de las unidades en que figuren los valores de la variable. Por lo común, este coeficiente de variación suele expresarse en tanto por ciento.
3. Coeficiente de desviación estándar
Es una medida de dispersión relativa que se usa para cuantificar la relación entre la desviación estándar (DE) de un conjunto de datos y su media. Proporciona una mayor perspectiva de la variabilidad de los datos en relación con el promedio.
CD= DE ⁄ Media
4. Coeficiente de desviación media
Es la relación entre la desviación media o estadística (Dm) de un conjunto de datos y su media. A través de ella, es posible saber qué tan significativa es la desviación media en comparación con el promedio del conjunto de datos.
CD = Dm/Media
5. Coeficiente de desviación del cuartil
Por debajo del primer cuartil (Q1) se encuentra el 25 % de los datos, mientras que por debajo del tercero (Q3) se halla el 75 %. La diferencia entre estos dos cuartiles es conocida como rango intercuartílico, y mide la dispersión en la mitad de los datos.
Lo que se hace con el coeficiente de desviación del cuartil es dividir ese rango intercuartílico por la suma de los cuartiles. El resultado obtenido indicaría, entonces, qué tan grande es la dispersión con respecto al nivel general de los valores.
CD= (Q3 – Q1) ⁄ (Q3 + Q1)
Causas de la dispersión de datos en una muestra
La variabilidad de los datos dependerá del fenómeno que se esté estudiando y de los instrumentos de medición utilizados. Por ejemplo, en las ciencias físicas, donde los fenómenos suelen ser estables, la dispersión puede deberse a errores de medición aleatorios. En estos casos, las mediciones de instrumentos no suelen ser del todo precisas; es decir, reproducibles.
Por su parte, en las ciencias biológicas y sociales, lo que se mide rara vez es inmutable y estable. Así, la variación observada también puede ser intrínseca al fenómeno. En este caso, la variación suele deberse a:
- La variabilidad interindividual: cuando miembros distintos de una población difieren entre sí.
- Factores asociados a la variabilidad intraindividual: un mismo sujeto difiere en las pruebas tomadas, bien sea en diferentes momentos o en condiciones distintas.
La dispersión y sus significados
En este artículo, has aprendido las medidas de dispersión indican, por un lado, el grado de variabilidad que hay en la muestra. Por el otro, señalan la representatividad del valor central, ya que, si se obtiene un valor pequeño, significa que los valores se concentran en torno a ese centro.
Esto quiere decir que hay poca variabilidad en los datos y el centro representa bien a todos. En cambio, si se obtiene un valor grande, significará que los valores no están concentrados, sino dispersos. Por tanto, habrá mucha variabilidad y el centro no será muy representativo.
Para terminar, es necesario resaltar que a la hora de hacer inferencias necesitaremos un tamaño de muestra más grande si queremos reducir el error, aumentado por el incremento de la variabilidad. Ten siempre presente esto en tus investigaciones.
Todas las fuentes citadas fueron revisadas a profundidad por nuestro equipo, para asegurar su calidad, confiabilidad, vigencia y validez. La bibliografía de este artículo fue considerada confiable y de precisión académica o científica.
- Gamboa, M. E. (2018). Estadística aplicada a la investigación educativa. Dilemas Contemporáneos: Educación, Política y Valores, 5(2), 1-32. https://dilemascontemporaneoseducacionpoliticayvalores.com/index.php/dilemas/article/view/427
- Batanero, C., González, R. I., del Mar, L. M., & Miguel, J. (2015). La dispersión como elemento estructurador del currículo de estadística y probabilidad. Epsilon, 32(2), 7-20. http://funes.uniandes.edu.co/18184/
- Folgueras, R. P. (s. f.). Medidas de Dispersión. https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=2ahUKEwixgPLvw_XgAhVDAmMBHW02AesQFjABegQIBRAC&url=http%3A%2F%2Fwww.educaguia.com%2FBiblioteca%2Fapuntesde%2Fmatematicas%2FESTADISTICAYPROBABILIDAD%2FMEDIDASDEDISPERSION.pdf&usg=AOvVaw0DCZ9Ej1YvX7WNEu16m2oF
- Manikandan, S. (2011). Measures of dispersion. Journal of Pharmacology and Pharmacotherapeutics, 2(4), 315-316. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3198538/