Los valores atípicos, anómalos o Outliers en estadística ¿Qué son, por qué aparecen y cómo controlarlos?

En la entrada sobre la comparativa entre la media y la mediana, comenté que uno de los motivos por los que íbamos a decantarnos por calcular la mediana y no la media era en el caso de las distribuciones numéricas sesgadas. En esta entrada vamos a aprender sobre los valores atípicos a los que se reducen dichas distribuciones sesgadas para que puedas comprender, con mayor profundidad, a qué nos referíamos.

Los valores atípicos ¿qué son?

¿Qué son los valores atípicos?

Los valores atípicos (o Outliers, en inglés son valores o combinación de valores en la(s) variable(s) observada(s) que les diferencia claramente del grueso de las observaciones. Dicho de otra manera y citando

Los valores anómalos son un problema omnipresente en la recolección de datos, son observaciones que se desvían en alguna dirección respecto al comportamiento general del resto del conjunto de datos y pueden afectar los resultados  de aplicar métodos estadísticos univariantes o multivariantes. 

Marcano y Fermín, 2013

Tienes el artículo de estos autores al final de la entrada. En definitiva, un valor atípico es un normal extraño, que se sale de lo «normal» cuando, ya, a simple vista, observamos un dato que no encaja con lo esperable.

¿Cuál es la causa de este tipo de valores?

Existen múltiples razones por las cuales pueden aparecer estos valores. De entre las causas más habituales, nos encontramos las siguientes:

  • Errores de procesamiento y/o codificación de los datos.
  • Situaciones extraordinarias.
  • Causas desconocidas o por puro azar.

Un valora típico debe llamar la atención del investigador y hacer que éste se pregunte ¿qué ha pasado aquí? Puede que haya sucedido algo diferente en el momento de la evaluación y, ya sea por azar o por el motivo que sea, debe mantenerse una actitud curiosa ante este acontecimiento. Que no cunda el pánico.

¿Por qué es necesario detectar valores atípicos?¿Han de eliminarse siempre?

Detectar estos valores de entre todas las observaciones es necesario porque, de haberlos, podrían influir en las relaciones entre las variables desvirtuando los resultados del análisis de las ecuaciones estructurales. De manera que no solo es necesario detectar estos valores atípicos sino también eliminarlos o atenuarlos, en la medida de lo posible. Ojo, siempre que sean resultado de un error en la recolección de datos o por causas ajenas a la investigación en sí.

Pero también puede suceder que sea precursor de una serendipia, es decir, de un descubrimiento. Quizás hay una variable extraña que no habíamos considerado y debemos encontrarla. ¿Qué pasó en el momento en el que tuvo lugar ese resultado en caso de no ser producto del error? Dependiendo del caso, puede ser, incluso, el comienzo de una bonita investigación nueva, si lo piensas bien. Como dicen los autores Marcano y Fermín (y, como en pocas webs vas a encontrar):

si el valor atípico proviene de variación natural, no debe removerse sino más bien resaltarse y tomarlo en cuenta de manera especial en el análisis realizado.

Marcano y Fermín (2013).

Lo que está claro es que, aun siendo una puerta abierta a otra investigación, puede ser una amenaza a la validez interna de nuestra investigación actual. Así que, a averiguar por qué ha tenido lugar.

¿Con qué mecanismos estadísticos univariados o multivariados podemos detectar los valores atípicos o anómalos?

Según algunos autores, «los valores atípicos en un contexto multivariante son más difíciles de detectar y visualizar gráficamente que en el caso univariado» (Peña y Prieto, 2001; en Marcano y Fermín, 2013). Y, como es de esperar, no todos los mecanismos son igual de efectivos en cualquier caso. Marcano y Fermín (2013) te traen una comparativa a partir de su estudio de correlación de estos mecanismos en cada situación para concluir acerca de cuáles serían los mecanismos estadísticos más eficaces y eficientes en caso de estar ante outliers univariados o multivariados. Sí, existen procedimientos que permiten detectar la existencia de estos valores o outliers desde un enfoque univariante así como multivariante, dependiendo del tipo de valor atípico del que se trate.

Aunque siempre está bien conocer estos mecanismos, nosotros, aquí, únicamente te podemos dar acceso al artículo. De todas formas, en el TFG de Psicología no te piden tanto pero sí está bien que comprendas que estos mecanismos existen y cuál sería el más oportuno y por qué. En algunos de estos mecanismos se especifica que pueden producir algunos efectos que los hace ineficientes. La revisión de los autores Marcano y Fermín está bastante bien y es lo suficiente detallada como para permitirte cierta autonomía a la hora de acceder a los cálculos si es lo que quieres.


Puedes leer el siguiente artículo de ampliación:

  • Marcano, L. & Fermín, W. (2013). Comparación de métodos de detección de datos anómalos multivariantes mediante un estudio de simulación. Saber25(2), 193-201. Recuperado en 26 de octubre de 2022, de http://ve.scielo.org/scielo.php?script=sci_arttext&pid=S1315-01622013000200009&lng=es&tlng=es. ¿Hay un error en esta cita, quieres saber cuál es? Scielo aún no ha actualizado a APA7 ni sabe qué cambios hay respecto a la versión anterior.
Puntúa esta entrada ❤️

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio