Distribución de Muestreo
Parámetro
Caracteristica de una población. Ejemplos:
- Rango de la variable “número de solicitudes semanales a la alcaldía”
- Distancia promedio recorrida por las personas en sus desplazamientos en el municipio.
- Asimetría de la distribución de desechos aprovechables generados en una zona.
Estadística
Estimación del parámetro al calcular en una muestra.
Con los mismos ejemplos:
- Para estimar el rango de la variable “número de solicitudes semanales a la alcaldía”, se registran las solicitudes durante un mes, es decir 4 datos, y se calcula el rango entre esos datos.
- Para estimar la distancia promedio recorrida por las personas en sus desplazamientos en el municipio, se hace una encuesta de movilidad en la que se toma el dato del desplazamiento de un grupo de personas, no de todas.
- Para estimar la asimetría de la distribución de desechos aprovechables generados en una zona, se toman valores de la cantidad de desechos aprovechables generados durante varios días, y se construye un histograma. Luego se calcula su asimetría.
En estos casos se hace un cálculo sobre los valores de la muestra, que llamamos estadística, con el objetivo de estimar el valor del parámetro.
Distribución de Muestreo
Para una variable aleatoria , se puede tomar una muestra de tamaño y calcular una estadística sobre la muestra (como )
Si se hubiera tomado otra muestra , se tendría otro
El conjunto de los es la distribución de muestreo del promedio.
Ejemplo
Supongamos que el universo es un conjunto de discos. La variable que nos interesa es el radio. Queremos estimar el valor del promedio del radio. Si son muchos discos, no podemos hacer un censo. Como ejemplo, pensemos en los siguientes discos:
Podemos tomar una muestra, mostrada aquí con rojo, y calcular el radio promedio. Obtenemos :
U otra muestra, mostrada aquí con verde, obteniendo
Ninguno de estos promedios es el promedio “real”, pero creemos que están cerca a ese valor. Entonces hacemos un análisis estadístico, en el que la variable es el radio promedio.
¿cómo se distribuye la variable aleatoria ?
Distribución de Muestreo
Teorema del límite central (TLC)
El TLC nos garantiza la relación entre los estadísticos y el parámetro.
Sea una varible aleatoria. Su valor esperado (promedio) es: , su varianza es .
- De una muestra aleatoria: }, se calcula un promedio, llamémoslo .
- De otra muestra , otro promedio, llamémoslo .
- Y así sucesivamente para una muestra 3, 4, etc.
El TLC garantiza que la distribución de los promedios tiende a una distribución normal cuando crece : , cuando .
¿esto que nos dice?
Suponga que tiene una distribución desconocida. Lo que garantiza el TLC es que al hacer una distribución de los promedios muestrales usted tiene una estimación del promedio de esa distribución desconocida, y la desviación estándar de esa distribución desconocida.
Ejemplo
Supongamos que tenemos una variable aleatoria que queremos caracterizar. Ahora, esa variable puede distribuirse de manera uniforme, pero supongamos que eso no lo sabemos.
Por ejemplo, usted encuentra un problema real, decide usar estadística para caracterizarlo. Define una variable. Pero no sabe si la variable que definió es uniforme o no. ¿cómo encuentra el promedio?
Específicamente, digamos que es una variable aleatoria uniforme en . Representamos la variable por el siguiente histograma.
Si quisieramos saber el promedio de la variable , podríamos hacer un censo del valor de la variable y promediar. Si esto es impráctico, podemos tomar una muestra y calcularle el promedio. Pero para tener un valor más cercano al promedio poblacional, podemos hacer esto varias veces, tomar varias muestras y calcular el promedio sobre cada muestra. Nos hacemos la siguiente pregunta:
¿Cómo se distribuye la variable promedios de ?
Tomamos una primera muestra, y obtenemos los valores: 0.6564121 4.7021593 4.9894877 3.3917462 1.7230563 9.4006784 4.6939857 2.3625959 7.1384810 7.2330379.
Al calcular el promedio, obtenemos:
Si tomamos una segunda muestra, con los valores: 8.5333600 0.4704488 5.8710375 6.0414564 4.5583983 9.7168667 6.7065967 2.2844655 3.7532787 9.9928106
Obtenemos el promedio
Si tomamos una tercera muestra, con valores: 0.5721976 3.5036649 2.5889360 1.2619283 7.1515359 2.5302950 2.7476769 6.1138531 6.5134797 0.7043770
Obtenemos:
Fíjese que esos promedios son distintos. Queremos saber cuál puede ser un buen valor del promedio (estadístico de centro) y de su desviación estándar.
Segun el Teorema del Límite Central, tiene una distribución normal, y su es el de la distribución original. Su desviación estándar es , es decir, teniendo la desviación estándar de la distribución de muestreo podemos calcular la de la distribución original.
En este caso la siguiente es la distribución de promedios. ¿que puede decir del promedio de los promedios, comparado con el promedio de la distribución original?
Recursos
- Video de ésta sección: https://youtu.be/srgrKqoKyJQ?si=08Ty7qQJek5imHSH
- Contento, capítulo 5