Skip to content

Tipos de distribuciones

Published: at 12:00 AM

Table of contents

Open Table of contents

Tipos de Distribuciones

Una distribución de valores de una variable es el conjunto de valores que tiene esa variable, ya sea sobre una población o sobre una muestra. Existen diferentes tipos de distribuciones.

Distribución de Frecuencia

Son tablas que representan el conteo (frecuencia) de los valores que tiene una variable agrupados en una serie de intervalos contiguos, no superpuestos. Se usan para establecer cómo están agrupadas las observaciones de una variable.

Ejemplo: Tardanzas de una empresa en 57 días

(Contento, página 71)

En una empresa se contabiliza el número de personas que llegan tarde a una empresa cada día. Registramos los valores en un arreglo de Python así:

tardanzas = [68, 63, 42, 27, 30, 36, 28, 32, 79, 27, 22, 23, 24, 25, 44, 65, 43, 25, 74, 51, 36, 42, 28, 31, 28, 25, 45, 12, 57, 51, 12, 32, 49, 38, 42, 27, 31, 50, 38, 21, 16, 24, 69, 47, 23, 22, 43, 27, 49, 28, 23, 19, 46, 30, 43, 49, 12]

En el curso de estadística descriptiva se vió la fórmula de Sturges, que recomienda el número de divisiones que debe tener un histograma

h=1+3.322log10nh = 1 + 3.322 \log_{10} n

o equivalentemente

h=1+log2nh = 1 + \log_{2} n

En este caso:

import numpy as np
h = 1 + 3.322 np.log10(57)

Obtenemos h6.837h \approx 6.83 \approx 7 divisiones. Se puede hacer el histograma con matplotlib:

import matplotlib.pyplot as plt
plt.hist(tardanzas,bins=7,edgecolor='w')
plt.title("Histograma de número de retardos por mes,\n n=57 meses")
plt.xlabel("Tardanzas")
plt.ylabel("Frecuencia")

La primera línea carga la librería matplotlib. La segunda línea genera un histograma del objeto tardanzas que habíamos definido antes, usando blanco para el borde de las clases. La tercera línea asigna el título al histograma. Luego viene la etiqueta del eje x y la del eje y.

Histograma que muestra el número de retardos. En el eje horizontal está el número de tardanzas, en el eje vertical la frecuencia. Hay siete clases, que van aproximadamente en los rangos 12 a 21, 21 a 31, 31 a 40, 40 a 50, 50 a 60, 60 a 69 y 69 a 79

Si se quiere incluir la cuenta hay que modificar ligeramente el código. Primero se incluye tres variables a la izquierda del comando plt.hist, una para las cuentas, otra para los boredes y otra para las barras. Luego se usa el comando plt.bar_label con argumento barras.

cuentas,bordes,barras = plt.hist(tardanzas,bins=7, edgecolor='w')
plt.bar_label(barras)
plt.title("Histograma de número de retardos  por mes, n=57 meses")
plt.xlabel("Tardanzas")
plt.ylabel("Frecuencia")

Histograma que muestra el número de retardos. En el eje horizontal está el número de tardanzas, en el eje vertical la frecuencia. Hay siete clases, que van aproximadamente en los rangos 12 a 21, 21 a 31, 31 a 40, 40 a 50, 50 a 60, 60 a 69 y 69 a 79

Ejercicio en clase

Usando los datos que se encuentran en el libro de Contento, pg. 87, ejercicio 7, “salinidad”, vamos a construir un histograma:

  1. Calcule el número de divisiones según Sturges, hh
  2. Ingrese los datos en una lista llamada salinidad ⌨️.
  3. Construya un histograma, con ese número de divisiones hh, sin el conteo. No copie y pegue ls instrucciones, tecléelas ⌨️.
  4. Modificque el algoritmo para incluir el conteo. No copie y pegue ls instrucciones, tecléelas ⌨️.

Distribuciones Discretas de Probabilidad

Variable discreta

Una variable es discreta cuando los valores que puede tomar la variable es un número contable. Ejemplos:

Distribuciones de probabilidad

Las distribuciones de probabilidad son funciones que asignan a un valor de la probabilidad a un evento. Tienen dos características:

Si X es una variable discreta, la función de probabilidad para X es f(x)=P(X=x)f(x) = P(X=x) con xΩx\in \Omega. Se lee “la probabilidad de que X tenga el valor x”.

Debe cumplir dos condiciones:

Por ejemplo, en un dado de 6 caras los eventos X X son los valores del 1 al 6. La probabilidad es

x123456
f(x)1/61/61/61/61/61/6

Se puede ver que cada valor de probabilidad es mayor o igual a cero y que la suma de las probabilidades es 1.

Ejercicio en clase: un dado de 10 caras

Un dado de 10 caras es una figura geométrica de 10 caras iguales, la forma de cada cara es un rombo similar al que surge al unir sus dos dedos índices y sus dos pulgares en un plano

Escriba ¿cuál es la probabilidad de obtener el valor 7 al lanzar un dado que tuviese 10 caras?

Coeficientes de Asimetría y Curtosis

  1. El coeficiente de asimetría de una distribución es:

g1=1ns3i=1n(xix)3g_1 = \frac{1}{n \cdot s^3} \sum_{i=1}^{n} \left(x_i - \overline{x}\right)^3

En Python se puede calcular usando la librería scipy.stats

import numpy as np
from scipy.stats import kurtosis, skew

Para la distribución de tardanzas:

skew(tardanzas)
  1. La curtosis de una distribución es: g2=1ns4i=1n(xix)43 g_2 = \frac{1}{n \cdot s^4} \sum_{i=1}^{n} \left(x_i - \overline{x}\right)^4 -3 En Pythonse usa también scipy.stats, como habíamos dicho, con from scipy.stats import kurtosis. Para la districubión de tardanzas:
kurtosis(tardanzas)

Cuantiles

Los cuantiles dividen las observaciones en 4 grupos, cada uno con el 25% de las observaciones. En Python se pueden calcular usando la función mquartiles de scipy.stats. Por ejemplo para las tardanzas tenemos:

from scipy.stats import mquantiles
mquantiles(tardanzas)

Se obtienen los valores [25. , 32. , 46.3]. ¿cómo interpreta el valor 3232?

Probabilidad clásica (teórica) de una variable discreta

Hay algunos casos en los que se puede saber cuál es la posibilidad de una variable discreta. El mas sencillo es el caso en que todas las opciones tienen la misma probabilidad. Por ejemplo si en una oficina de atención al cliente hay 2 cabinas idénticas la probabilidad de que una persona elija al azar la cabina 1 o la cabina 2 es la misma. Esta es la probabilidad uniforme discreta.

Distribución uniforme discreta XUd(1;n)X \sim U_d(1;n)

Si XX es una variable aleatoria que puede tomar nn valores distintos {x1,x2,...,xn}\{x_1,x_2,...,x_n\}, cada uno de ellos con el mismo chance de selección. La distribución de probabilidad para la variable aleatoria es:

P(X=xi)=1n,i=1,2,...,n P(X=x_i) = \frac{1}{n}, i=1,2, ...,n

La variable aleatoria uniforme discreta con valores enteros de 1 a nn se nota: XUd(1;n)X \sim U_d(1;n)

En el ejemplo de las dos cabinas de atención al cliente n=2n=2. Si XX es la probabilidad de que se elija izquierda o derecha: XUd(1;2)X \sim U_d(1;2) . Aquí etiquetamos x1:izqx_1: izq y x2:derx_2: der, luego:

P(X=x1=izq.)=12P(X=x_1 = izq.) = \frac{1}{2}

P(X=x2=der.)=12P(X=x_2 = der.) = \frac{1}{2}

Muestras de Distribuciones discretas en Python

Para construir una muestra de una lista en python se puede usar la función random.choice de la librería numpy. Esta genera una muestra aleatoria de un arreglo (lista) del tamaño definido por el usuario.

Por ejemplo, arange(10) genera los números del 0 al 9. Veamos:

import numpy as np
lista10 = arange(10)

Para hallar 5 números elegidos al azar entre el 0 y el 10, se usa el siguiente código:

random.choice(lista10,5)
xp(x)
00.04
10.08
20.12
30.16
40.2
50.16
60.12
70.08
80.04
90

Distribuciones Continuas

(en la siguiente sección )

Repaso

Bibliografía


Previous Post
Consejo de Posgrados: Propuesta modificación opción trabajo de grado
Next Post
Ejercicio en clase 1, codificación