Tamaño de muestra para estimar promedio y proporción (Contento, pg.255)
Suponga que usted tiene una población de tamaño , y quiere calcular el promedio de una variable. ¿Cuál es el tamaño de la muestra que garantiza que el promedio de la muestra es un buen estimativo al promedio de la población?
Ejemplo (experiencia reflexiva)
Supongamos que tenemos una variable aleatoria. Queremos estimar el valor de . Podemos tomar muestras. Tomamos una primera muestra, de tamaño 10.
muestra1 = [2, 1, 1, 1, 11, 5, 0, 1, 0, 1]
(Calcule el promedio.)
Luego sacamos otras tres muestras del mismo tamaño, obteniendo:
muestra2 = [0, 0, 0, 97, 1, 15, 0, 19, 6, 0]
muestra3 = [2, 0, 2, 3, 0, 0, 7, 3, 0, 63]
muestra4 = [4, 14, 9, 13, 0, 0, 3, 5, 0, 0]
Construimos la siguiente tabla:
| Número de muestra (tamaño 10) | Promedio |
|---|---|
| primera | |
| segunda | |
| tercera | |
| cuarta |
Nos damos cuenta que para este tamaño de la muestra, el promedio varía mucho entre diferentes muestras. Ahora, si usaramos una muestra más grande, por ejemplo:
muestra5 = [6,0,0,7,0,2,0,0,0,0,2,1,0,1,0,1,0,2,4,0,8,4,7,0,0,12,37,27,0,5,6,16,1,0,3,0,0,2,0,0,3,0,10,0,0,1,0,3,0,1,6,0,75,6,1,2,0,0,10,5,0,47,0,0,0,0,22,0,1,0,8,0,0,24,58,0,7,0,0,0,2,2,2,0,3,0,0,3,8,8,16,0,0,0,0,4,0,2,2,0,2,0,0,1,0,0,2,2,9,0,1,8,13,10,3,0,0,5,8,6,0,0,0,0,0,81,0,6,0,0,0,5,3,0,3,0,0,0,1,0,21,0,3,0,0,1,34,0,0,2,1,42,0,3,2,3,1,0,21,9,5,2,0,0,8,21,14,0,0,0,1,4,9,0,1,0,14,3,5,5,0,1,49,7,0,1,0,62,0,3,1,2,0,6,8,2,1,8,20,83]
y repetimos tres veces, tenemos:
muestra6 = [2,0,1,0,0,2,11,6,0,3,2,0,4,0,0,0,0,1,0,54,0,3,5,0,0,1,16,12,2,12,0,1,5,0,0,3,1,12,1,0,4,70,5,0,16,0,0,0,1,49,4,4,3,5,26,0,4,1,6,0,25,0,0,0,11,2,4,18,0,6,1,19,3,11,0,8,0,1,1,0,3,48,1,9,0,2,0,3,4,10,1,1,0,3,5,3,5,4,0,0,1,7,2,10,0,8,5,2,25,16,0,0,18,13,7,12,0,3,24,0,0,2,3,0,2,18,9,5,0,2,68,0,1,0,1,0,3,1,1,21,3,15,16,0,0,0,7,0,0,2,3,8,0,14,13,0,1,0,0,8,3,1,0,1,0,0,1,1,0,11,10,18,1,0,1,1,3,0,11,1,0,8,1,61,0,0,0,19,20,5,0,1,6,1,0,0,0,1,0,0]
muestra7 = [11,0,12,18,1,1,1,0,1,0,0,12,1,36,0,0,128,16,37,3,1,0,1,0,0,26,0,1,0,0,35,0,2,1,1,0,0,0,0,1,0,0,0,0,4,0,6,0,4,0,24,7,7,0,0,2,4,1,0,11,3,8,3,3,0,0,6,0,10,0,0,6,0,0,0,1,1,0,9,1,11,2,5,0,0,0,0,2,3,0,2,0,4,4,1,2,0,23,99,14,1,32,17,0,4,0,40,7,0,0,0,20,6,0,1,5,7,0,17,8,3,0,0,16,8,3,1,4,3,0,0,3,5,1,0,5,5,3,0,26,7,10,0,0,5,1,8,1,19,12,0,0,3,4,6,19,0,0,0,3,1,51,3,0,8,1,0,0,1,0,3,2,1,20,0,0,0,1,50,1,1,0,4,8,0,0,1,0,0,0,2,1,0,7,1,3,0,8,0,0]
muestra8 = [0,0,0,6,1,0,0,0,2,4,0,2,6,0,5,0,15,11,2,0,0,0,1,1,3,0,0,0,6,0,0,0,0,0,0,0,2,13,50,0,0,0,4,5,14,2,1,0,11,0,3,2,0,2,2,2,0,5,16,0,38,2,8,0,9,4,1,0,1,1,0,14,7,20,46,3,4,14,0,1,0,1,0,1,0,2,10,3,3,19,31,0,0,2,10,24,15,0,0,11,0,0,1,5,0,25,1,0,0,0,2,0,24,62,5,2,0,9,14,9,0,1,11,0,5,0,0,18,0,0,7,3,0,0,3,0,19,0,2,6,0,0,1,0,11,1,2,6,0,4,0,21,5,49,0,15,12,0,27,1,26,0,5,18,0,0,0,0,58,1,0,0,0,48,0,26,1,0,0,7,24,32,0,10,4,1,0,11,5,71,0,0,0,0,54,2,60,0,10,1]
Consigne los valores en la tabla:
| Número de muestra (tamaño 10) | Promedio |
|---|---|
| muestra5 | |
| muestra6 | |
| muestra7 | |
| muestra8 |
¿Qué puede decir en comparación de estos nuevos valores de promedio con relación a los anteriores?
Tamaño de la muestra para el promedio
Va a depender de:
-
Qué tanto varían los datos, expresado en su
-
Con qué confianza necesitamos el promedio
-
Cuál es la mayor distancia permitida.
Se resume en:
Ahora, aquí necesitamos , lo que nos lleva a un argumento circular. Lo que se hace es:
- Usar la varianza de una población similar
- Usar el rango dividido entre 4: R/4
- Tomar una muestra tamaño 30 o menos, y estimar
Para la proporción
De manera similar se necesita la proporción, lo que se hace:
- Usar la proporción hallada en un estudio similar
- Usar 0.5
Ejemplo
“Se desea estimar el tamaño de muestra para estimar la proporción de bachilleres que en la actualidad acceden a la educación superior. Si se opta por asumir una estimación de y una confianza de 95% en que la estimación no se aleja más de 0.1 de la real proporción poblacional, entonces el tamaño de muestra estaría determinado por” (Contento, pg. 257)
El valor es el punto crítico a nivel de una distribución normal, . Como la tabla da la probabilidad a cola izquierda, se usa el complemento,
import scipy.stats as st
valorz = st.norm.ppf(1-0.025)
Entonces el calculo sería:
n0 = valorz**2*0.5*(1-0.5)/0.1**2
Que es igual al dato que aparece en la bibliografía.
Promedios de las muestras en estos ejemplos
| Número de muestra (tamaño 10) | Promedio |
|---|---|
| primera | 2.3 |
| segunda | 13.8 |
| tercera | 8.0 |
| cuarta | 5.3 |
| muestra5 | 5.77 |
| muestra6 | 5.685 |
| muestra7 | 5.84 |
| muestra8 | 6.84 |