Prueba de Kolmogórov-Smirnov: ¿qué es y cómo se usa?
Las pruebas paramétricas y no paramétricas son muy utilizadas en el campo de la estadística inferencial. Entre las no paramétricas, encontramos la prueba de Kolmogórov-Smirnov, que nos devuelve un indicador para ayudarnos a de decidir si los datos de una determinada muestra se ajustan a una distribución de probabilidad, con las consecuencias que tiene este hecho de cara al análisis de datos.
Esta prueba surge de los aportes realizados por Nikolaevich Kolmogorov y Vladimir Ivanovich Smirnov. La contribución de Kolmogorov corresponde al problema relacionado con una sola muestra, mientras que la de Smirnov se ocupa de responder al problema respecto a dos muestras, tratando de probar la hipótesis de igualdad entre las poblaciones de origen de una con respecto a la de la otra.
¿Qué es la prueba de Kolmogorov-Smirnov?
La prueba de Kolmogorov-Smirnov es una prueba de bondad de ajuste no paramétrica que se emplea para obtener un indicador que le dé una idea al investigador de si dos distribuciones son distintas o si una distribución de probabilidad subyacente difiere de una distribución hipotética (Dodge, 2008).
Principalmente, se usa cuando en una investigación tenemos dos muestras procedentes de dos poblaciones que son diferentes. Algunas de las características de este tipo de pruebas, no paramétricas, son las siguientes(Gómez-Gómez et al., 2003):
- Son independientes de las observaciones aleatorias a excepción de datos pareados.
- Tienen pocas asunciones con respecto a la distribución de la población.
- La variable dependiente es medida en escala categórica.
- El punto primario es el ordenamiento por rangos o por frecuencias.
- Las hipótesis se hacen sobre rangos, mediana o frecuencias de los datos.
- El tamaño de la muestra requerido es menor (20 o <).
¿Para qué sirve?
Esta prueba nos sirve para:
- Verificar si las puntuaciones que hemos obtenido de nuestra muestra siguen o no una distribución normal.
- Medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica.
- Evaluar qué distribución se adapta mejor a los datos.
- Contrastar si nuestras observaciones proceden de una distribución específica.
- Discriminar las diferencias en la localización y formas de las distribuciones.
- Probar si dos distribuciones son lo suficientemente diferentes entre ellas cuando queremos construir escenarios de predicción.
A través de Kolmogorov-Smirnov, podemos comparar la distribución acumulada de las frecuencias teóricas con la distribución acumulada de las frecuencias observadas. Para ello, la idea es encontrar el punto de divergencia máxima y determinar cuál es la probabilidad de que una diferencia de esa magnitud ocurra al azar.
¿Cómo se calcula?
Para calcularla, partimos de la diferencia mayor (en valor absoluto) entre la distribución acumulada de una muestra (observada) y la distribución teórica. La bondad de ajuste de la muestra permite suponer de manera razonable, que las observaciones pueden corresponder a la distribución específica (Gómez-Gómez et al., 2003).
Si lo que pretendemos es comparar la función de distribución empírica de los datos observados, con la función de distribución acumulada asociada con la hipótesis nula, los pasos son los siguientes (Kawwa, 2020):
- Ordenar las observaciones en orden ascendente.
- Calcular la función de la distribución empírica de las observaciones.
- Para cada observación xi calcular F exp (xi) = P (Z ≤ xi).
- Calcular las diferencias absolutas.
- Registrar la diferencia máxima.
- Hallar el valor crítico.
- Rechazar o aceptar hipótesis nulas.
Si deseamos probar si dos muestras se extraen de la misma distribución, entonces debemos seguir los siguientes pasos (Kawwa, 2020):
- Ordenar cada muestra.
- Concatenarlas en una matriz ordenada.
- Calcular las funciones de distribución acumulativa observadas de las dos muestras.
- Calcular su máxima diferencia absoluta.
- Comparar los resultados.
Al aplicar esta prueba, debemos asumir siempre que los parámetros de la distribución de prueba han sido especificados con antelación. Este procedimiento estima los parámetros a partir de la muestra. Por otro lado, también tenemos que asumir que la media y la desviación estándar de la muestra son los parámetros de una distribución normal.
Limitaciones de la prueba
Una de las limitaciones que tiene la prueba de Kolmogorov-Smirnov es que para que pueda funcionar, se deben especificar los parámetros de ubicación, la escala y la forma. Si estos parámetros se llegan a estimar partiendo de los datos, la prueba se invalida. Por ende, si no conocemos cuáles son estos parámetros, es mejor aplicar una prueba no tan formal.
Otra limitación es que, por lo general, no se puede usar para distribuciones discretas, especialmente si se está usando software, ya que la mayoría de los paquetes de software no tienen las extensiones necesarias para la prueba de Kolmogorov-Smirnov y los cálculos manuales son complicados.
Todas las fuentes citadas fueron revisadas a profundidad por nuestro equipo, para asegurar su calidad, confiabilidad, vigencia y validez. La bibliografía de este artículo fue considerada confiable y de precisión académica o científica.
- Dodge, Y. (2008). Kolmogorov–Smirnov Test. The concise encyclopedia of statistics (pp. 283-287). https://doi.org/10.1007/978-0-387-32833-1_214
- Gómez-Gómez, M., Danglot-Banck, C., & Vega-Franco, L. (2003). Sinopsis de pruebas estadísticas no paramétricas. Cuándo usarlas. Revista mexicana de pediatría, 70(2), 91-99. https://www.medigraphic.com/pdfs/pediat/sp-2003/sp032i.pdf
- Kawwa, N. (2020, 14 de febrero). When to Use the Kolmogorov-Smirnov Test. Towards data science. https://towardsdatascience.com/when-to-use-the-kolmogorov-smirnov-test-dd0b2c8a8f61