Estimación Puntual

El uso de una estadística para estimar, o hallar un valor cercano al valor real, de un parámetro. Ejemplo: Uso del promedio muestral $\overline{X}$ , para acercarnos al promedio poblacional $\mu$ .

Intervalo de Confianza

Intervalo en el cual esperamos que esté el valor del parámetro con una confiabilidad $\alpha$ pre-establecida.

Distribución de Muestreo

Distribución de probabilidad de una estadística basada en muestras aleatorias.

Estimación por intervalo

Para una variable aleatoria $X$ . Queremos estimar un parámetro. ¿cómo sabemos en que rango de valores estará el parámetro? Queremos tener:

Alta confiabilidad $\alpha$ : que el parámetro muy seguramente esté en el intervalo.
Intervalos angostos
No conocemos los parámetros ( $\mu$ , $\sigma$ )
Podemos estimar en muestras ( $\overline{x}$ , $S$ )
Sabemos el tamaño de la muestra, $n$ .

Intervalo de Confianza para $\mu$

(La fórmula se desarrolla en Contento 2019, pg. 274 )

Dado un valor de confianza $(1 - \alpha) \cdot 100 \%$ , un tamaño de muestra $n$ , una desviación estándar de la muestra $S$ , y un promedio de la muestra de $\overline{x}$ , el intervalo de confianza es:

$\overline{x} \pm t_{\alpha/2;n-1}\frac{S}{\sqrt{n}}$

$t_{\alpha/2;n-1}$ es una distribución t-student con $n-1$ grados de libertad.
$\alpha / 2$ es la probabilidad a cola derecha.
Para calcularla en python:
- Se usa la librería scipy.stats y de allí se calcula con la función t.ppf.
- Los argumentos de la función son $1-\alpha/2$ y los grados de libertad $n-1$
- Por ejemplo, se calcula $t_{\alpha/2;n-1}$ , para $\alpha=0.1$ y $n=10$ , así:
```
from scipy.stats import t
t.ppf(1-0.05,10)
```
y si lo queremos usar después se puede asignar el valor a una variable.

Ejemplo, Contento 2019, pg 275.

Una agencia ambiental mide el promedio de masa ( $\mu g$ ) en 1 $m^3$ de aire. Toma Si hay $n=5$ mediciones, y obtiene los valores: 58, 70, 57, 61 y 59. Es decir tiene un $\overline{x}=61$ , y $s=5.244$ , ¿cuál es el intervalo de confianza del 95% ?

Respuesta

Llamamos librerías:

import scipy.stats as st
import numpy as np
import pandas as pd

Calculamos el promedio y la desviacion estandar:

valores = np.array([58,70,57,61,59])
promedio = valores.mean()
S = st.tstd(valores)

Como queremos que la confianza sea del 95%, entonces tenemos que:

$(1 - \alpha) 100 = 95\%$

Esto quiere decir que $\alpha = 0.05$ y por lo tanto $\alpha/2 = 0.025$

Como son 5 mediciones, tenemos que $n-1 = 5-1 = 4$

Con estos datos calculamos la distribución $t$ :

$t_{0.025;4}$ se calcula así:

from scipy.stats import t
t.ppf(1-0.025,4)

Como queremos usar el valor después, por precisión, podemos asignar a una variable:

t0=t.ppf(1-0.025,4)

Los valores de los extremos izquierdo y derecho serán:

$61-t_{0.025;4}\times(5.244/\sqrt{5})=54.49$

$61+t_{0.025;4}\times(5.244/\sqrt{5})=67.51$

Que siguiendo lo que hicimos, en el software se calcula como:

li = promedio - t0*S/np.sqrt(5)
ld = promedio + t0*S/np.sqrt(5)
print(li,ld)

Ahora si podemos aproximar a dos decimales.

El intervalo sería, entonces: (54.49,67.51)

Recursos

Grabación de la explicación de ésta clase: Estimación Puntual y por Intervalo https://youtu.be/fcf4MZq0WiE?si=WSx-usuTEq8rZcvq
Ejemplo usando software R: https://youtu.be/a7xO1dtJcTE?si=L2QTHugAVSAVSefs
Contento, capítulo 5

2024 S2 C.2 Intervalo de Confianza