e8d soluciones Omitir vínculos de navegación

Análisis estadístico de datos

Qué hacer cuando el resultado de un análisis no se ajusta a lo esperado (II)

Una vez verificada la integridad de los datos utilizados para realizar el estudio, trataremos de dar un nuevo enfoque al análisis. Para ello podemos optar por varias técnicas, la primera de las cuáles exponemos a continuación.

Exclusión de datos

Supongamos que estamos buscando una fórmula que explique el peso de una persona a partir de la altura de la misma. En el artículo Regresión lineal mostramos la forma de hacerlo. Analicemos un diagrama en el que mostramos dicha relación.

Como podemos observar, el coeficiente de determinación R2 se aleja de 0,65, valor que asumíamos como válido para dar por buena una fórmula de regresión. En la gráfica vemos dos puntos que se alejan de lo que es habitual. Descartando tan sólo el situado a la derecha, con un peso aproximado de 150 kilos, se obtiene lo siguiente.

Como podemos ver, R2 se aproxima a 1 de forma muy llamativa (recordemos que 1 indica una correlación perfecta entre peso y altura). Es evidente que no podemos descartar todos los casos que “nos molesten” hasta que las conclusiones se ajusten a lo que queríamos. Dicha exclusión de valores atípicos (también llamados outliers) debe hacerse de forma que:

1. Quede documentada, es decir, se avise de que se han excluido ciertos cass

2. Se realice con arreglo a criterios válidos. Hay muchos, pero dos de los más extendids son:

Exclusión en función de la distancia intercuartil

Veámoslo con los datos utilizados para el diagrama anterior. Excluiremos atendiendo a la variable Peso.

a. Calcularíamos los valores para el primer y tercer cuartiles (Q1 y Q). Excel, SPSS u otros programas calculan estos valores fácilmente. Los valores obtenidos son Q1=73,5 y Q3=83.

b. Calculamos la distancia intercuartil, es decir IQR=Q3-Q1=9,5

c. Con estos datos identificaríamos los valores atípicos leves y extremos, teniendo en cuenta que:

  • Valor atípico leve: si es menor que Q1-1,5*IQR (59,25) O si es mayor que Q3+1,5 *IQR (97,2).
  • Valor atípico extremo: si es menor que Q1-3*IQR (45) O si es mayor que Q3+3*IQR (111,5).
  • En nuestro ejemplo

    Podemos optar por el criterio que queramos: descartar los leves o los extremos. En nuestro ejemplo, descartaríamos el individuo que pesa 150 kilos.

    Exclusión en función de la desviación típica

    Esta alternativa excluye los casos que estén por encima o por debajo de una distancia basada en la desviación típica. Por ejemplo, se excluirían los casos que estén:

  • por encima de la media más el triple de la desviación típica observada.
  • por debajo de la media menos el triple de la desviación típica observada.
  • En nuestro ejemplo, los valores son

  • Media=84,2
  • Desviación típica=21,4
  • Así pues, descartaríamos aquellos valores que sean:

  • Mayores que 84,2+3*21,4=148,4
  • Menores que 84,2-3*21.4=20
  • Sólo hay un caso, el que tiene Peso=150 kilos.

    Conclusiones

    Hemos comprobado que, en ocasiones, los resultados de un análisis se pueden ver alterados por la existencia de valores puntuales que se alejan de la tendencia general. Podemos excluir dichos valores del análisis siempre y cuando acotemos la validez de los resultados obtenidos y utilicemos métodos contrastados para ello. Se muestran dos criterios de exclusión de casos, basados en distancia intercuartil y distancia respecto de la desviación típica de la muestra.

    Mapa del sitio

    HOME

    EMPRESA

    SERVICIOS

    DATOS DISPONIBLES

    TRATAMIENTO DE DATOS

    GEOGRÁFICOS

    ANÁLISIS ESTADÍSTICO DE DATOS

    BUSINESS INTELLIGENCE

    AUDITORÍA INFORMÁTICA

    CONTACTO


    Contacto

    telefono e8d        91 776 85 20 / 91 355 29 30

    telefono e8d       Ctra. Villaverde Vallecas Km 3.5 (C.T.M.-Oficina 209)

    email e8d info@e8dsoluciones.es



    Política de privacidad

    Política de calidad

    Política de cookies