El Tao de la Física: Cuando los números desnudos mienten: el cuarteto de Anscombe

LOS ANÁLISIS estadísticos son útiles porque resumen un montón de cifras en un par de números significativos; por ejemplo: el promedio y la desviación estándar. La información de temas diversos (e.g. opiniones o inclinaciones de voto, tendencias económicas y fenómenos naturales) puede ser condensada en unos cuantos números, y de esa manera tomar una mejor decisión sobre algún asunto delicado: un tratamiento médico, una política de estado, etc.

Sin embargo, un análisis numérico en solitario es insuficiente; es indispensable obtener una visualización correcta de la distribución de los datos, una gráfica. Una imagen donde se representen los datos puede brindar más información en menos tiempo como asegura E. Tufte en sus famosos libros. Además permite intuitivamente descubrir estructuras en nuestra serie de datos. Efectivamente, una gráfica brinda el contexto necesario para tomar mejore decisiones y ser cuidadoso en evaluar nuestro modelos propuestos.

El cuarteto de Anscombe ejemplifica excelentemente este último caso. Pues muestra que cuatro conjuntos de datos con las mismas propiedades estadísticas pueden tener tendencias muy diferentes.

En una época cuando las computadoras personales empezaban a permear en la sociedad americana, cuando las programas de hojas de cálculo eran poco (muy poco) conocidos. Francis J. Anscombe publicó el artículo: Graphs in Statistical Analysis (1973). Ahí defendía la idea de usar métodos gráficos para complementar los análisis estadísticos.

Él presenta la siguiente tabla de números que contiene cuatro conjuntos de datos (de ahí el nombre de cuarteto), esencialmente, cada conjunto exhibe propiedades estadísticas idénticas: el promedio de los valores de X es 9.0, mientras que los valores de Y es de 7.5, sus variancias son casi idénticas, correlaciones y líneas ajustadas (al menos por dos lugares decimales).

Con todo, cuando graficamos los datos, sus tendencias son muy diferentes entre sí, como muestra la siguiente imagen.

Estas cuatro gráficas son muy diferentes, pero sus valores estadísticos coinciden. Da clic en la imagen para hacer más grande

Los datos del conjunto 1 presentan una dispersión general, pero se pueden ajustar a la recta. En contraste, los datos del conjunto 2 muestran una tendencia no lineal. Mientras que los datos del conjunto 3 forman una línea hay un dato disparado (outlier data). Finalmente, los datos del conjunto 4 tienen una tendencia de línea vertical pero un dato disparado hace que la línea de tendencia sea muy diferente de la vertical.

De cierto es que graficar los datos revela su estructura, muestra cuando el análisis presenta casos patológicos como el conjunto 4. Por ello, los análisis requieren tanto cálculos como gráficas. Y ambas salidas deben ser estudiadas, pues ambas contribuyen al entendimiento del fenómeno estudiado.

¿Qué es un dato disparado?

Es uno o varios datos que se separan mucho de promedio o la tendencia que muestra el conjunto de datos. Retirarlos implica dejar más en claro la tendencia; disminuye la desviación estándar. Pero, ¿Cuántos datos se deben retirar?, ¿Qué tan lejos debe estar un dato para considerarlo disparado? La respuesta para ambas preguntas carece de consenso. Así, para los conjuntos de datos 3 y 4 es claro que un solo punto esta disparado (para ambos casos); a simple vista conjunto 2 carece de datos disparados; pero del conjunto 1 son varios los puntos que pueden estar disparados.

Criterio de la distribución gaussiana.

¿Cómo están distribuidos los datos
en una campana de Gauss? La imagen
muestra esa concentración de información

En general, podemos pensar que los puntos se distribuyen simétricamente alrededor del promedio. Como una distribución gaussiana, la cual se puede definir a partir del promedio y de la desviación estándar de los datos. Pues bien, un círculo imaginario con un radio igual la desviación estándar contiene más de 68 % de los datos de la distribución (como ilustra la imagen), en este intervalo se concentra la mayoría de la información. Por tanto, lo que está fuera de este intervalo se puede descartar como un dato disparado. Ese es un criterio para limpiar nuestros datos.

Sin embargo, al reportar nuestros descubrimientos debemos mencionar la presencia de los datos disparados, La gráfica debe presentar los datos completos. Esta práctica no era la norma en 1970s y muchos no la siguen hoy en día. Posiblemente, esta falta de gráficas y datos disparados son los que han llevado a muchos profesionales a de la estadística a graves errores en sus predicciones, habrá que ver.

Ya en anteriores entradas había advertido del uso del factor de correlación como único criterio para ajustar una curva. Ahora, el cuarteto muestra un ejemplo concreto que los números por si solos son insuficientes, se require de elementos visuales para completar la información.

¿existirán más conjuntos de datos que compartan estadísticas similares y gráficas dispares?, ¿Cuál será la manera lógica de construirlas? Eso… será tema de otra historia para este blog.

Referencias.

Anscombe, F. (1973). Graphs in Statistical Analysis The American Statistician, 27 (1) DOI: 10.2307/2682899

4 comentarios:

Sergio R.11:28 p.m.
Excelente! Gracias. Me sirve para el primer Tp de mediciones de Fisica I de la carrera de ingenieria en la UBA.
ResponderBorrar
Respuestas
monozweidrei1:44 a.m.
Como se escribió alguna vez en este espacio; R^2 menores a 0.97 conducen a errores. Con valores diferentes a 0.66 tal vez no se verían esas gráficas en un caso real.
ResponderBorrar
Respuestas