Skip to content

Distribución de probabilidad hipergeométrica

Published: at 12:00 AM

Table of contents

Open Table of contents

Modelos estadísticos y software especializado para métodos cuantitativos

Muestreo

Suponga que se quiere elegir un único elemento al azar del siguiente conjunto:

🍉 🍉 🍉 🍉 🥝

Tenemos que:

P(🍉)=45P(🍉) = \frac{4}{5}

P(🥝)=15P(🥝) = \frac{1}{5}

Ahora, supongamos que se van a elegir dos elementos. Aquí podríamos hacerlo de dos formas, con reemplazo y sin reemplazo.

En la mayoría de las aplicaciones el cálculo exacto se haría en muestreo sin reemplazo. Pero si la población es grande, la diferencia es pequeña. Como el muestreo con reemplazo es más sencillo que el muestreo sin reemplazo, cuando la población es grande se asume reemplazo.

Muestreo con reemplazo

Para construir la muestra se toma el primer elemento al azar del grupo y para elegir el segundo se usa el mismo conjunto inicial. Es decir:

  1. Se empieza con el conjunto: | 🍉 🍉 🍉 🍉 🥝 |

  2. Se elije uno al azar, que podría ser 🍉 con una P(🍉)=45P(🍉) = \frac{4}{5}, o ser 🥝 con P(🥝)=15P(🥝) = \frac{1}{5}.

  3. Sin importar cual sale, se vuelve a elegir un segundo elemento del mismo conjunto.

Las probabilidades serán:

P(🍉🍉)=P(🍉)×P(🍉)=45×45=1625=0.64P(🍉🍉) = P(🍉) \times P(🍉) = \frac{4}{5} \times \frac{4}{5} = \frac{16}{25} = 0.64

P(🥝🥝)=P(🥝)×P(🥝)=15×15=125=0.04P(🥝🥝) = P(🥝) \times P(🥝) = \frac{1}{5} \times \frac{1}{5} = \frac{1}{25} = 0.04

P(🥝y🍉)=P(🥝🍉)+P(🍉🥝)=P(🍉)P(🥝)+P(🥝)P(🍉)=2P(🥝)P(🍉)=2×45×15=825=0.32P(🥝y🍉) = P(🥝🍉) + P(🍉🥝) = P(🍉)P(🥝) + P(🥝)P(🍉) = 2P(🥝)P(🍉) = 2 \times \frac{4}{5} \times \frac{1}{5} = \frac{8}{25} = 0.32

Podemos revisar que se cumple la regla de ls probabilidad, sumando y comparando con 1.

Por ejemplo si estamos interesados en saber cuál es la probabilidad de que dos personas elegidas al azar tengan la vcuna Covid, dado que la población es muy grande, se puede asumir que se elige con reemplazo.

Muestreo sin reemplazo

  1. Se empieza con el conjunto: | 🍉 🍉 🍉 🍉 🥝 |

  2. Se elije uno al azar, que podría ser 🍉 con una P(🍉1)=45P(🍉_1) = \frac{4}{5}, o ser 🥝 con P(🥝1)=15P(🥝_1) = \frac{1}{5}. Para el siguiente paso no se devuelve la fruta. Es necesario identificar el subíndice, porque las probabilidades cambiarán.

  3. Se elije el segundo. 3.1 Si en el primero se eligió 🍉, entonces ahora el conjunto es: | 🍉 🍉 🍉 🥝 | Y las probabilidades ahora son:

    P(🍉2)=34P(🍉_2) = \frac{3}{4}

    P(🥝2)=14P(🥝_2) = \frac{1}{4}

    Entonces en este caso tendríamos:

    P(🍉1🍉2)=P(🍉1)×P(🍉2)=45×34=1220=0.6P(🍉_1🍉_2) = P(🍉_1) \times P(🍉_2) = \frac{4}{5} \times \frac{3}{4} = \frac{12}{20} = 0.6

    P(🍉1🥝2)=P(🍉1)×P(🥝2)=45×14=420=0.2P(🍉_1🥝_2) = P(🍉_1) \times P(🥝_2) = \frac{4}{5} \times \frac{1}{4} = \frac{4}{20} = 0.2

    3.2 Si en el primero se eligió 🥝, entonces ahora el conjunto es | 🍉 🍉 🍉 🍉 |, y las probabilidades son:

    P(🍉2)=44=1P(🍉_2) = \frac{4}{4} = 1

    P(🥝2)=04=0P(🥝_2) = \frac{0}{4} = 0

    Entonces en este caso tendríamos:

    P(🥝1🍉2)=P(🥝1)×P(🍉2)=15×0=0P(🥝_1🍉_2) = P(🥝_1) \times P(🍉_2) = \frac{1}{5} \times 0 = 0

    P(🥝1🥝2)=P(🥝1)×P(🥝2)=15×1=15=0.2P(🥝_1🥝_2) = P(🥝_1) \times P(🥝_2) = \frac{1}{5} \times 1 = \frac{1}{5} = 0.2

Finalmente tenemos, entonces:

P(🍉🍉)=1220=0.6P(🍉🍉) = \frac{12}{20} = 0.6

P(🥝🥝)=15=0.2P(🥝🥝) = \frac{1}{5} = 0.2

P(🥝y🍉)=P(🥝1🍉2)+P(🍉1🥝2)=0+420=0.2P(🥝y🍉) = P(🥝_1🍉_2) + P(🍉_1🥝_2) = 0+\frac{4}{20} = 0.2

En este caso, como se trata de una muestra pequeña, hay grandes diferencias entre el muestreo con y son reemplazo.

Distribución Hipergeométrica

(Contento, pg 192)

En un muestreo con reemplazo, la probabilidad está dada por la distribución hipergeométrica. Sus propiedades:

  1. Experimento consistente en seleccionaruna muestra aleatoria, sin reemplazo, de tamaño nn, de un conjunto finito de tamaño NN. El orden de los elementos no importa
  2. De los NN objetos, KK son de tipo I, tienen característica de interés. Los restntes NKN-K son de tipo II, no tienen la característica.
  3. La variable aleatoria es: XX cantidad de elementos seleccionados que tienen el rasgo de interés (están en el grupo I).

Función de probabilidad hipergeométrica

Si una variable aleatoria xx tiene distribución hipergeométrica de parámetros N,nN, n y KK, su función de masa de probabilidad es:

p(x)=(Kx)(NKnx)(Nn)p(x) =\frac{\begin{pmatrix}K \\ x\end{pmatrix} \begin{pmatrix}N-K \\ n-x\end{pmatrix} }{\begin{pmatrix}N \\ n\end{pmatrix}} x=0,1,...,nx= 0,1,...,n

xKx \leq K

nxNK n-x \leq N-K

Para hacer referencia a una variable aleatoria distribuída hipergeométricamente con parámetros NN, nn y KK, se escribe XHG(N;n;K)X \sim HG (N;n;K)

Valor esperado y varianza

Si XHG(N;n;K)X \sim HG (N;n;K), el promedio y la varianza son:

μ=n(KN)\mu = n \left( \frac{K}{N} \right)

σ2=n(KN)(NKN)(NnN1)\sigma^2 = n \left( \frac{K}{N} \right) \left( \frac{N-K}{N} \right) \left( \frac{N-n}{N-1} \right)

Cálculo en el software

En R:

dhyper(x,K,N-K,n)

En Python:

scipy.stats.hypergeom.pmf(x,N,K,n)

Ejemplo

La cuarta parte de las semillas de un lote de 40 está en mal estado. Se toman 8 semillas y se analizan en laboratorio. Con qué probabilidad 33 de ellas estarán en malas condiciones?

XX: número de semillas en malas condiciones

NN: 40 semillas

K=40/4=10K= 40/4 = 10 semillas en malas condiciones

n=8n = 8 tamaño de la muestra

La probabilida de que 3 de ellas esté en malas condiciones es p(3)p(3). Se puede calculr con el software:

dhyper(3,10,30,8)

Se obtiene como resultado 0.2223625.

En Python es:

import scipy.stats as st
st.hypergeom.pmf(3,40,10,8)

De nuevo se obtiene 0.22236252576809853.

Ejercicios

Recursos Adicionales


Previous Post
Software III
Next Post
Distribución T de Student