Estadística bidimensional

Estadística en una dimensión

Población, muestra y variable

La población es el conjunto total de individuos u objetos que se desean estudiar. La muestra es un subconjunto representativo de la población.

La variable estadística es la característica que se estudia en cada individuo.

Tipos de variables estadísticas

Las variables estadísticas pueden ser cualitativas o cuantitativas:

  • Las variables cualitativas describen cualidades.
  • Las variables cuantitativas expresan cantidades numéricas y pueden ser discretas o continuas.

1En los siguientes enunciados identifica cuál es la población y la variable estadística a estudiar. Indica además el tipo de variable estadística en cada caso.

  1. Color favorito de los alumnos de un instituto.
  2. Número de hermanos de los estudiantes de una clase.
  3. Altura de los jugadores de un equipo de baloncesto.
  4. Marca de teléfono móvil utilizada por los profesores.

Tablas de frecuencias

Una tabla de frecuencias organiza los datos estadísticos mostrando las frecuencias absolutas, relativas y acumuladas de cada valor o intervalo.

2Para los siguientes conjuntos de datos, construye la tabla de frecuencias:

  1. Número de hermanos: 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5
  2. Número de libros leídos en un trimestre: 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7

Agrupar valores en intervalos

Cuando los datos son numerosos o continuos, se agrupan en intervalos para facilitar su representación y análisis estadístico.

Agrupar valores en intervalos: número de intervalos

Para número de valores menores a \[n \lt 50\] tomaremos como número de intervalos \[ \sqrt{n} \] mientras que si tenemos más datos usaremos la Fórmula de Sturges: \[ \frac{log(n)}{log(2)} + 1 \]. Idealmente tendremos como mucho 15-20 intervalos.

Agrupar valores en intervalos: amplitud

Para determinar la amplitud de cada intervalo tomaremos su rango (es decir la diferencia entre el mayor y el menor valor) y lo dividiremos entre el número de intervalos.

3Para los siguiente conjuntos de datos, agrúpalos en intervalos y construye su tabla de frecuencias:

  1. Número de minutos dedicados al estudio: 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50
  2. Número de ejercicios resueltos en una semana: 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42

Estadística en una dimensión: gráficos

Gráfico: Diagrama de barras

El diagrama de barras representa variables cualitativas o cuantitativas discretas mediante barras cuya altura es proporcional a la frecuencia.

Gráfico: Histograma

El histograma representa variables cuantitativas continuas agrupadas en intervalos mediante rectángulos contiguos.

Gráfico: Diagrama de sectores

El diagrama de sectores representa las frecuencias relativas de los datos mediante sectores circulares proporcionales.

4Para el siguientes conjuntos de datos, completa la tabla de frecuencias y dibuja sus diagrama de barras o histograma segundo corresponda:

  1. Valoración de una actividad por parte de un grupo de 40 personas:
    xi 1 2 3 4 5
    fi 6 10 8 9 7
  2. Tiempo de espera en minutos:
    Intervalos [0,10) [10,20) [20,30) [30,40) [40,50)
    fi 5 9 11 8 7

Estadística en una dimensión: medidas

Parámetros estadísticos

Los parámetros estadísticos son medidas numéricas que resumen la información contenida en un conjunto de datos.

Medidas de posición

  • Medidas de posición central:
    • Media
    • Mediana
    • Moda
  • Medidas de posición no central:
    • Cuartiles
    • Percentiles

Media

La media aritmética es el promedio de los datos y se calcula mediante:

\[ \bar{x}=\frac{\sum_{i} x_i \cdot f(x_i)}{n} \]

Moda

La moda es el valor de la variable que presenta mayor frecuencia absoluta.

Mediana, Cuartiles y Percentiles

La mediana divide la distribución en dos partes iguales. Los cuartiles dividen los datos en cuatro partes y los percentiles en cien partes iguales.

Para calcular estas medidas usaremos la frecuencia relativa acumulada.

Medidas de dispersión

  • Medidas de dispersión absoluta:
    • Rango
    • Rango intercuartílico
    • Varianza y Desviación típica
  • Medidas de dispersión relativas:
    • Coeficiente de variación

Rango y rango intercuartílico

El rango o recorrido es la diferencia entre el valor máximo y el mínimo.

El rango intercurtílico es la diferencia entre el tercer y el primer cuartil.

Varianza y desviación típica

La varianza mide la dispersión de los datos respecto de la media y la desviación típica es su raíz cuadrada.

\[ \sigma^2=\frac{\sum_{i} (x_i-\bar{x})^2 \cdot f(x_i)}{n} \]

Coeficiente de variación

El coeficiente de variación compara la dispersión de diferentes distribuciones estadísticas.

\[ CV=\frac{\sigma}{\bar{x}} \]

Otras medidas

  • Medidas de forma: coeficiente de asimetría, coeficiente de curtosis, etc.

5Para los siguientes conjunto de datos, completa la tabla de frecuencias y calcula la media, mediana, moda, cuartiles, rango, rango intercuartílico, desviación típica y coeficiente de variación:

  1. Número de hermanos de 30 estudiantes.
    xi 0 1 2 3 4
    fi 7 10 8 4 1

  2. Edades (en años) de 50 personas.
    Intervalos [0,10) [10,20) [20,30) [30,40) [40,50)
    fi 5 9 10 18 8

Estadística Bidimensional

Distribución conjunta: tabla de doble entrada

Una distribución conjunta estudia simultáneamente dos variables estadísticas y se representa mediante tablas de doble entrada.

6Dados los siguientes conjuntos de pares de valores, construye una tabla de doble entrada con sus frecuencias conjuntas:

  1. Horas de estudio y nota obtenida en un examen: \[(1,2)^6\], \[(1,3)^6\], \[(2,3)^7\], \[(2,4)^7\], \[(2,5)^7\], \[(2,6)^7\], \[(3,4)^8\], \[(3,5)^8\], \[(4,5)^8\], \[(4,6)^8\], \[(5,6)^8\]
  2. Edad y número de libros leídos en un año: \[(10,8)^4\], \[(10,9)^2\], \[(10,13)^4\], \[(11,9)^8\], \[(12,10)^5\], \[(12,11)^5\], \[(13,11)^5\], \[(13,12)^5\], \[(14,12)^5\], \[(14,13)^5\], \[(15,13)^5\], \[(15,14)^5\], \[(16,14)^5\], \[(16,15)^7\], \[(17,15)^5\], \[(16,13)^4\], \[(17,13)^4\], \[(10,13)^4\]

Frecuencias marginales

Las frecuencias marginales se obtienen sumando las frecuencias conjuntas por filas o columnas.

7Construye una tabla con las frecuencias marginales del ejercicio anterior

Frecuencias condicionadas

Las frecuencias condicionadas muestran cómo se distribuye una variable cuando se fija un valor concreto de la otra variable.

8Constuye las tablas de frecuencias condicionadas que se piden teniendo en cuenta los datos del ejercicio anterior:

  1. En el conjunto de datos del ejercicio 6, apartado a: Frecuencias condicionadas a que las horas de estudio sean 2.
  2. En el conjunto de datos del ejercicio 6, apartado b: Frecuencias condicionadas a que el número de libros sea 13.

Estadística Bidimensional: Gráfico y medidas

Gráfico: Diagrama de dispersión

El diagrama de dispersión representa pares de valores mediante puntos en el plano cartesiano.

Dependencia lineal

Existe dependencia lineal entre dos variables cuando los puntos del diagrama de dispersión se aproximan a una recta.

9Representa los diagramas de dispersión de los conjuntos de datos del ejercicio 6 e indica si te parece que hay dependencia lineal.

Covarianza

La covarianza mide la relación lineal entre dos variables estadísticas.

\[\operatorname{Cov}(X,Y) = \sigma_{xy} =\frac{\sum_{i}(x_i-\bar{x})(y_i-\bar{y}) \cdot f(x_i, y_i)}{n} \]

Coeficiente de correlación

El coeficiente de correlación lineal mide la intensidad y sentido de la relación lineal entre dos variables.

\[ r = \frac{\sigma_{xy}}{\sigma_x \cdot \sigma_y} \]

10Calcula la covarianza y coeficiente de correlación de los siguientes conjuntos de datos:

  1. Horas de entrenamiento semanal y rendimiento en una prueba física. \[(1,2)^6\], \[(1,3)^2\], \[(2,3)^6\], \[(2,4)^8\], \[(2,5)^2\], \[(3,4)^4\], \[(3,5)^{12}\]
  2. Número de hermanos y número de películas vistas en una semana: \[(0,1)^6\], \[(0,3)^6\], \[(1,2)^8\], \[(1,4)^4\], \[(2,1)^5\], \[(2,3)^6\], \[(2,4)^5\]

Regresión lineal

Regresión Lineal

La regresión lineal permite aproximar la relación entre dos variables mediante una recta.

Rectas de regresión

Las rectas de regresión permiten estimar valores de una variable a partir de la otra.

  • Y sobre X: \[ y - \bar{y} = \frac{\sigma_{xy}}{\sigma_x^2} (x - \bar{x}) \]
  • X sobre Y: \[ x - \bar{x} = \frac{\sigma_{xy}}{\sigma_y^2} (y - \bar{y})\]

11Calcula la recta de regresión de X sobre Y y de Y sobre X para los siguientes conjuntos de datos:

  1. Horas de estudio semanales y nota obtenida en un examen: \[(1,4)^7\], \[(1,5)^3\], \[(2,5)^6\], \[(2,6)^8\], \[(2,7)^2\], \[(3,7)^5\], \[(3,8)^9\]
  2. Horas diarias de uso del móvil y horas de sueño: \[(1,8)^8\], \[(1,7)^4\], \[(2,7)^6\], \[(2,6)^7\], \[(2,5)^3\], \[(3,6)^4\], \[(3,5)^8\]

Interpolaciones y extrapolaciones

La interpolación permite estimar valores dentro del intervalo observado de datos. La extrapolación permite estimar valores fuera de dicho intervalo.