Skip to content

Distribuciones continuas

Published: at 12:00 AM

Table of contents

Open Table of contents

Tipos de distribuciones

Distribuciones Continuas

Variable continua

Las variables continuas toman valores en los números reales. Representan cantidades cuya medición puede ser un valor decimal,

Ejemplo: variable peso-al-nacer

En una base de datos se registran el peso al nacer de los neonatos. Se pesan con una balanza con una precisión de 0.001 kg (es decir 1g); por lo tanto la variable “peso del neonato” es continua.

Función de densidad de probabilidad de una variable continua

Cuando la variable es continua, no tiene sentido hablar de la probabilidad de que se obtenga un valor exacto. En su lugar se habla de la probabilidad de que una variable tome un valor en un intervalo. La función densidad de probabilidad tiene las siguientes características:

Distribución uniforme continua

Dada una variable XX, que puede tomar valores en el intervalo [a,b][a,b], entonces la densidad uniforme contínua es:

f(x)=1ba  ;  axb f(x) = \frac{1}{b-a}\ \ ; \ \ a \leq x \leq b

La notación XUc(a,b)X \sim U_c(a,b) se lee: x se distribuye uniforme contínua en el intervalo a,b

Ejemplo: Contaminante (contento, pg. 198)

La concentración de cierto contaminante está distribuida de manera uniforme en el intervalo 00 a 2020 ppm. Si se considera tóxica una concentración de 88 o más, responda las preguntas:

Ejemplo: Probabilidad lineal

Supongamos que la densidad de probabilidad está dada por la siguiente función:

p(x)=0.125x+0.5 ; 0<x<4p(x) = -0.125 x + 0.5 \ ; \ 0 < x < 4

Representada por la siguiente gráfica:

Función lineal p(x) =  -0.125 x  + 0.5 \ ; \ 0 < x < 4 Si quisieramos hallar la probabilidad de que la variable xx tome valores entre 0 y 1, por ejemplo, se requiere la integral:

P(0X1)=01(0.125x+0.5)dxP(0\leq X \leq 1) = \int_0^1 (-0.125 x + 0.5) dx

P(0X1)=(0.125x22+0.5x)01P(0\leq X \leq 1) = (-0.125 \frac{x^2}{2} + 0.5 x ) |_0^1

P(0X1)=(0.1252+0.5)=0.4375P(0\leq X \leq 1) = (\frac{-0.125}{2} + 0.5 ) = 0.4375

La probabilidad de que la variable XX tome valores entre 00 y 11 es de 0.4375 0.4375

Distribución binomial (repaso)

Supongamos que se lanza una moneda 100 veces, y se registra el resultado como +1 si se obtiene cara y -1 si se obtiene sello. Nos preguntamos:

Podemos decir que se trata de una distribución binomial. Los valores que puede tomar la suma van de -100 (si todas son sellos) a +100 (si todas son caras. La situación más probable es que la suma sea 0, es decir que haya tantos valores de cara como de sello. Y sabemos que la distribución será simétrica, es decir la probabilidad de que la suma sea igual a 1 es idéntica a que sea -1, y así sucesivamente.

Maquina de Galton. Hay una serie de discos verdes puestos en una grilla triangular, pero están alineados verticalmente fila de por medio. Es decir, primero tenemos uno, en la segunda fila hay otros dos, formando un triángulo rectángulo. En la tercera fila hay tres, pero el de la mitad está justo debajo del disco de la primera fila. En la cuarta fila hay cuatro, los dos de la mitad están justo abajo de los dos de la segunda fila, y así sucesivamente. Si los discos representan puntillas y se deja caer una esfera desde arriba como un pinball, cada vez que golpea un disco podrá ir a izquierda o derecha. La figura muestra una de esas trayectorias. Debajo de los discos hay unos rectángulos abiertos por arriba, que representan recep´taculos donde llegarían las esferas del pinbal. En los receptáculos del centro hay más bolas de pinbal que se reducen hacia los extremos. Las bolas son rojas, los discos verdes.

Distribución gaussiana (normal)

Existen variables continuas que tienen características similares a las de la binomial. Es el caso de las variables morfológicas (forma). Si pensamos por ejemplo en el peso al nacer de neonatos de una misma generación, se espera que el valor más común sea el promedio, y que a medida que nos alejamos del promedio se reduzca la probabilidad.

La distribución gaussiana tiene las siguientes características:

Simulación de la distribución gaussiana

Se usa la función random.normalde la librería numpy. En la ayuda se tienen tres argumentos: loc, scale y size: normal(loc=0.0, scale=1.0, size=None). Corresponden al centro de la distribución, μ\mu; la desviación estándar, σ\sigma y el tamaño de la muestra NN. La distribución gaussiana ** estandar** tiene μ=0\mu =0 y σ=1\sigma = 1. Por ejemplo:

import numpy as np
muestra = np.random.normal(0,1,1000)
plt.hist(muestra,bins=11,edgecolor='w',alpha=0.5)
plt.xlabel("X")
plt.ylabel("N(X)")
plt.title("Gaussina estandar")

Se obtiene la siguiente gráfica:

Distribución gaussiana estándar. En el eje horizontal hay valores entre -3 y 3. En el eje vertical entre 0 y 200, aunque hay espacio que podría llegar cerca al 250. Hay una serie de rectángulos azul claro, que corresponden a las clases. Es aproximadamente simétrica, la más grande está cerca a 0, con una cuenta de alrededor 240, a su izquierda, centro alrededor de x=-0.5, el conteo llega alrededor de 200. A la derecha, con centro cerca a 0.5, llega a 150. Las clases más alejadas del centro tienen cada vez menos cuentas.

Ejercicio en clase, diferentes distribuciones gaussianas.

Seguimos con N=1000N=1000.

Estandarización

Es un proceso para comparar distribuciones que tienen diferentes parámetros, pero que tienen la misma forma. Recordemos que la forma funcional de la gaussiana es f(x)=12πσe12(xμσ)2,f(x) = \frac{1}{\sqrt{2 \pi \sigma}}e^{-\frac{1}{2} \left( \frac{x - \mu}{\sigma}\right)^2},; fíjese que la variable XX aparece acompañada de μ\mu y σ\sigma de la forma xμσ\frac{x - \mu}{\sigma}. La estandarización consiste en definir una nueva variable ZZ:

Z=xμσZ = \frac{x - \mu}{\sigma}

El valor ZZ determina la distancia, medida en desviaciones estándar, desde el promedio. Es positiva si está a la derecha del promedio y negativa si está a su izquierda.

Por la forma que tiene la distribución gaussiana, Z usualmente varía entre -3 hasta 3; es decir de 3 desviaciones estándar a la izquierda hasta 3 desviaciones estándar a la derecha.

Ejemplo, comparando resultados de dos exámenes

(fuente: Diez, D. M., Barr, C. D., & Cetinkaya-Rundel, M. (2012). OpenIntro statistics, página 134)

Supongamos que tenemos dos poblaciones a las que se les hacen exámenes diferentes, pero que tratan de medir lo mismo. Pueden ser exámenes saber 11 de dos años diferentes, que tratan de evaluar lo mismo pero resultan que en la práctica uno es más difícil que el otro. ¿cómo se pueden comparar los resultados personas que hicieron diferentes examenes?

Cómo se puede comparar el puntaje de Ana con el de Juan?

La gráfica muestra distribución del grupo de Ana, en naranja; y la distribución del grupo de Juan, en azul.

Dos distrubuciones gausianas. En naranja una que va de 300 a 400 en x, y un valor máximo en y de 0.007. Otra azul, que va de 350 a 380, pero con un máximo de 0.032

Aunque ambos tuvieron el mismo puntaje sin estandarizar, hay una mayor variabilidad en el grupo de Ana que en el grupo de Juan. Para compararlos usamos el valor ZZ.

ZAna=37035020=2020=1Z_{Ana} = \frac{370-350}{20} = \frac{20}{20} = 1

ZJuan=3703605=105=2Z_{Juan} = \frac{370-360}{5} = \frac{10}{5} = 2

Ambos están a la derecha del promedio, pero Ana está sólo a una desviación estándar del promedio; mientras que Juan está a dos desviaciones estándar del promedio. En comparación a sus grupos, es decir a las situaciones que les correspondió a cada uno, por ejemplo en términos de que tan difícil fue su examen, Juan tiene una mejor valoración que Ana.

Tabla Gaussiana Estandar

Reporta las probabilidades acumuladas hasta un z0z_0 dado. Es decir, calcula P(Zz0)=z012πσe12z2dzP(Z\leq z_0) = \int_{-\infty}^{z_0} \frac{1}{2\pi \sigma} e^{\frac{-1}{2}z^2} dz. Es el área de la siguiente gráfica.

Distribución gaussiana, en negro. En el eje horizontal hay un valor z0, a la derecha del promedio. El área bajo la curva, y que está a la izquierda de z0, está marcada con color. A la derecha no. La gráfica representa la integral bajo una curva.

Ejemplo

Supongamos que queremos encontrar la probabilidad de que la variable ZZ tenga un valor menor a 2.05-2.05. Eso equivale a encontrar el área bajo la curva desde -\infty hasta 2.05-2.05. Esa área correspondería gráficamente a la siguiente área marcada con violeta:

Distribución gaussiana, en negro. En el eje horizontal hay un valor z=-2.05, a la izquierda de 0. El área bajo la curva, y que está a la izquierda de z0, está marcada con color. A la derecha no.

Para encontrar esta probabilidad con el software se usa la tabla. Se buscan las unidades y el primer decimal en la primera columna y el segundo decimal en la primera fila, así:

Tabla de probabilidad, en la columna correspondiente al valor z=-2.0 y la fila correspondiente a 0.05 está la casilla marcada con 0.0202. Luego esta es la probabilidad acumulada hasta allí.

Probabilidad a cola derecha

La probabilidad a cola derecha corresponde al área acumulada a partir de un valor. Por ejemplo, la siguiente figura representa la probabilidad P(Z2.0)P(Z\geq 2.0):

La gráfica muestra una normal estándar. En el eje horizontal, a la
derecha, está el valor 2. El área marcada está a la derecha de 2, en
color púrpura.

Ahora, en las tablas está la probabilidad a cola izquierda. Luego lo que se hace es buscar el evento complementario A\overline{A}, y calcular su probabilidad. El complemento del evento A:Z>2.0A:Z>2.0 es el evento: A:Z2.0\overline{A}:Z\leq 2.0

Luego:

P(A)=1P(A) P(A) = 1- P(\overline{A})

P(Z>2.0)=1P(Z2.0)=0.0228 P(Z>2.0) = 1- P(Z \leq 2.0)=0.0228

En Python

Se importa la librería statsde scipy:

import scipy.stats as st

Por ejemplo, para la probabilidad acumulada P(Z2.05)P(Z \leq -2.05), se haría:

st.norm.cdf(-2.05)

Lo que da el valor: 0.020182215405704394, se puede aproximar a cuatro decimales en 0.0202.

Para P(Z>2)P(Z>2):

1-st.norm.cdf(2)

Se obtiene 0.02275013194817921 o aproximando a cuatro decimales 0.0227.

Punto crítico

Es el valor z=zαz=z_{\alpha} tal que la probabilidad P(Z>zα)=αP(Z>z_{\alpha}) = \alpha. Se representa en la siguiente gráfica por el valor z0z_0

Punto crítico. Se ve una función gaussiana. En el eje horizontal
está marcado el valor z0. El área bajo la curva a la derecha de z0
está marcado en magenta y está etiquetado como el área
alfa.

Es decir, si antes teníamos el valor z0z_0 y hallabamos la probabilidad α\alpha, ahora tenemos la probabilidad a cola derecha y buscamos el valor z0z_0.

Para hacerlo usando la tabla de probabilidades, como la tabla tiene probabilidad a cola izquierda y aquí queremos a cola derecha, usamos la probabilidad del evento complementario. Es decir buscamos en la tabla el valor zz que corresponde a la probabilidad 1α1-\alpha.

Punto crítico. Complementa la gráfica anterior. Ahora el área de la
izquierda hasta llegar a z0 está marcada como uno menos
alfa.

Ejemplo

¿Que z0z_{0} hace que P(Z>z0)=0.8413P(Z>z_0) = 0.8413?

Tomamos P(Zz0)=10.8413=0.1587P(Z\leq z_0) = 1-0.8413 = 0.1587

Según la tabla:

Tabla de probabilidades, muestra que el valor z que corresponde a un
alfa de 0.1587 es -1.

El valor sería de -1. Este es un valor aproximado, si se calcula con el software se tiene:

st.norm.ppf(0.1587)

Lo que devuelve el valor 0.999815093614744-0.999815093614744.

Bibliografía


Previous Post
Taller 1: Distribución Gaussiana
Next Post
Consejo de Posgrados: Propuesta modificación opción trabajo de grado