Un diagrama de caja (también, diagrama de caja y bigotes o box plot) es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, se muestran a simple vista la mediana y los cuartiles de los datos,[1] y también pueden representarse sus valores atípicos. Conviene recordar que se utilizan las bisagras de Tukey, y no los cuartiles, a la hora de dibujar la caja del gráfico, aunque los resultados son semejantes en muestras grandes.
Tipos de variables que se necesitan
editar
Discretas y Continuas.
Componentes del diagrama de caja
editar
El diagrama de caja incluye los siguientes elementos:
rango (sin datos atípicos)
datos atípicos
rango intercuartil (también conocido como RIC)
cuartiles (Q1, Q2 y Q3)
mediana (Q2)
mínimo y máximo
Elaboración manual del diagrama de caja
editar
Para la elaboración de manera manual de este tipo de gráfico, primero se obtiene la media de cada intervalo, y luego la mediana de la tabla de frecuencias en general. Con estos datos, se utiliza la fórmula de la media de cada intervalo elevado a la mediana. Los datos obtenidos en esta fórmula son la interpretación.
Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el rango intercuartílico (RIC):
En el ejemplo, para trazar la caja:
Valor 7: es el Q1 (25% de los datos)
Valor 8.5: es el Q2 o mediana (el 50% de los datos)
Valor 9: es el Q3 (75% de los datos)
Rango intercuartílico (Q3–Q1)
Los «bigotes», las líneas que se extienden desde la caja, se extienden hasta los valores máximo y mínimo de la serie o hasta 1,5 veces el RIC.
Cuando los datos se extienden más allá de esto, significa que hay valores atípicos en la serie y entonces hay que calcular los límites superior e inferior, Li y Ls.
Para ello, se consideran atípicos los valores inferiores a Q1–1.5·RIC o superiores a Q3+1.5·RIC.
En el ejemplo:
inferior: 7–1.5·2 = 4
superior: 9+1.5·2 = 12
Ahora se buscan los últimos valores que no son atípicos, que serán los extremos de los bigotes.
En el ejemplo: 4 y 10
Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
En el ejemplo: 0,5 y 2,5
Además, se pueden considerar valores extremadamente atípicos aquellos que exceden Q1–3·RIC o Q3+3·RIC.
De modo que, en el ejemplo:
inferior: 7–3·2 = 1
superior: 9+3·2 = 15
Utilidad
editar
Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica.
Son útiles para ver la presencia de valores atípicos también llamados outliers.
Pertenece a las herramientas de las estadística descriptiva. Permite ver cómo es la dispersión de los puntos con la mediana, los percentiles 25 y 75 y los valores máximos y mínimos.
Ponen en una sola dimensión los datos de un histograma, facilitando así el análisis de la información al detectar que el 50% de la población está en los límites de la caja.
Referencias
editar
↑«BBC Bitesize - GCSE Maths - Representing data - Edexcel - Revision 7». BBC Bitesize(en inglés británico). Consultado el 12 de noviembre de 2018.