Open Table of contents

Modelos estadísticos y software especializado para métodos cuantitativos
Ejercicios
Recursos Adicionales

Modelos estadísticos y software especializado para métodos cuantitativos

Muestreo

Suponga que se quiere elegir un único elemento al azar del siguiente conjunto:


🍉 🍉 🍉 🍉 🥝

Tenemos que:

$P(🍉) = \frac{4}{5}$

$P(🥝) = \frac{1}{5}$

Ahora, supongamos que se van a elegir dos elementos. Aquí podríamos hacerlo de dos formas, con reemplazo y sin reemplazo.

En la mayoría de las aplicaciones el cálculo exacto se haría en muestreo sin reemplazo. Pero si la población es grande, la diferencia es pequeña. Como el muestreo con reemplazo es más sencillo que el muestreo sin reemplazo, cuando la población es grande se asume reemplazo.

Muestreo con reemplazo

Para construir la muestra se toma el primer elemento al azar del grupo y para elegir el segundo se usa el mismo conjunto inicial. Es decir:

Se empieza con el conjunto: | 🍉 🍉 🍉 🍉 🥝 |
Se elije uno al azar, que podría ser 🍉 con una $P(🍉) = \frac{4}{5}$ , o ser 🥝 con $P(🥝) = \frac{1}{5}$ .
Sin importar cual sale, se vuelve a elegir un segundo elemento del mismo conjunto.

Las probabilidades serán:

$P(🍉🍉) = P(🍉) \times P(🍉) = \frac{4}{5} \times \frac{4}{5} = \frac{16}{25} = 0.64$

$P(🥝🥝) = P(🥝) \times P(🥝) = \frac{1}{5} \times \frac{1}{5} = \frac{1}{25} = 0.04$

$P(🥝y🍉) = P(🥝🍉) + P(🍉🥝) = P(🍉)P(🥝) + P(🥝)P(🍉) = 2P(🥝)P(🍉) = 2 \times \frac{4}{5} \times \frac{1}{5} = \frac{8}{25} = 0.32$

Podemos revisar que se cumple la regla de ls probabilidad, sumando y comparando con 1.

Por ejemplo si estamos interesados en saber cuál es la probabilidad de que dos personas elegidas al azar tengan la vcuna Covid, dado que la población es muy grande, se puede asumir que se elige con reemplazo.

Muestreo sin reemplazo

Se empieza con el conjunto: | 🍉 🍉 🍉 🍉 🥝 |
Se elije uno al azar, que podría ser 🍉 con una $P(🍉_1) = \frac{4}{5}$ , o ser 🥝 con $P(🥝_1) = \frac{1}{5}$ . Para el siguiente paso no se devuelve la fruta. Es necesario identificar el subíndice, porque las probabilidades cambiarán.
Se elije el segundo. 3.1 Si en el primero se eligió 🍉, entonces ahora el conjunto es: | 🍉 🍉 🍉 🥝 | Y las probabilidades ahora son:

$P(🍉_2) = \frac{3}{4}$

$P(🥝_2) = \frac{1}{4}$

Entonces en este caso tendríamos:

$P(🍉_1🍉_2) = P(🍉_1) \times P(🍉_2) = \frac{4}{5} \times \frac{3}{4} = \frac{12}{20} = 0.6$

$P(🍉_1🥝_2) = P(🍉_1) \times P(🥝_2) = \frac{4}{5} \times \frac{1}{4} = \frac{4}{20} = 0.2$

3.2 Si en el primero se eligió 🥝, entonces ahora el conjunto es | 🍉 🍉 🍉 🍉 |, y las probabilidades son:

$P(🍉_2) = \frac{4}{4} = 1$

$P(🥝_2) = \frac{0}{4} = 0$

Entonces en este caso tendríamos:

$P(🥝_1🍉_2) = P(🥝_1) \times P(🍉_2) = \frac{1}{5} \times 0 = 0$

$P(🥝_1🥝_2) = P(🥝_1) \times P(🥝_2) = \frac{1}{5} \times 1 = \frac{1}{5} = 0.2$

Finalmente tenemos, entonces:

$P(🍉🍉) = \frac{12}{20} = 0.6$

$P(🥝🥝) = \frac{1}{5} = 0.2$

$P(🥝y🍉) = P(🥝_1🍉_2) + P(🍉_1🥝_2) = 0+\frac{4}{20} = 0.2$

En este caso, como se trata de una muestra pequeña, hay grandes diferencias entre el muestreo con y son reemplazo.

Distribución Hipergeométrica

(Contento, pg 192)

En un muestreo con reemplazo, la probabilidad está dada por la distribución hipergeométrica. Sus propiedades:

Experimento consistente en seleccionaruna muestra aleatoria, sin reemplazo, de tamaño $n$ , de un conjunto finito de tamaño $N$ . El orden de los elementos no importa
De los $N$ objetos, $K$ son de tipo I, tienen característica de interés. Los restntes $N-K$ son de tipo II, no tienen la característica.
La variable aleatoria es: $X$ cantidad de elementos seleccionados que tienen el rasgo de interés (están en el grupo I).

Función de probabilidad hipergeométrica

Si una variable aleatoria $x$ tiene distribución hipergeométrica de parámetros $N, n$ y $K$ , su función de masa de probabilidad es:

$p(x) =\frac{\begin{pmatrix}K \\ x\end{pmatrix} \begin{pmatrix}N-K \\ n-x\end{pmatrix} }{\begin{pmatrix}N \\ n\end{pmatrix}}$ $x= 0,1,...,n$

$x \leq K$

$n-x \leq N-K$

Para hacer referencia a una variable aleatoria distribuída hipergeométricamente con parámetros $N$ , $n$ y $K$ , se escribe $X \sim HG (N;n;K)$

Valor esperado y varianza

Si $X \sim HG (N;n;K)$ , el promedio y la varianza son:

$\mu = n \left( \frac{K}{N} \right)$

$\sigma^2 = n \left( \frac{K}{N} \right) \left( \frac{N-K}{N} \right) \left( \frac{N-n}{N-1} \right)$

Cálculo en el software

En R:

dhyper(x,K,N-K,n)

En Python:

scipy.stats.hypergeom.pmf(x,N,K,n)

Ejemplo

La cuarta parte de las semillas de un lote de 40 está en mal estado. Se toman 8 semillas y se analizan en laboratorio. Con qué probabilidad $3$ de ellas estarán en malas condiciones?

$X$ : número de semillas en malas condiciones

$N$ : 40 semillas

$K= 40/4 = 10$ semillas en malas condiciones

$n = 8$ tamaño de la muestra

La probabilida de que 3 de ellas esté en malas condiciones es $p(3)$ . Se puede calculr con el software:

dhyper(3,10,30,8)

Se obtiene como resultado 0.2223625.

En Python es:

import scipy.stats as st
st.hypergeom.pmf(3,40,10,8)

De nuevo se obtiene 0.22236252576809853.

Ejercicios

Del libro de González, Sección 5.3, página 287, distribución hipergeométrica
Del Libro de Contento, página 195.

Recursos Adicionales

En el libro de González, Pg. 281.
A mayor profundidad, el profesor Ronny Vallejos lo discute en el video https://www.youtube.com/watch?v=YBeL_LxEi40

Distribución de probabilidad hipergeométrica

Table of contents