Estimación Puntual
El uso de una estadística para estimar, o hallar un valor cercano al valor real, de un parámetro. Ejemplo: Uso del promedio muestral , para acercarnos al promedio poblacional .
Intervalo de Confianza
Intervalo en el cual esperamos que esté el valor del parámetro con una confiabilidad pre-establecida.
Distribución de Muestreo
Distribución de probabilidad de una estadística basada en muestras aleatorias.
Estimación por intervalo
Para una variable aleatoria . Queremos estimar un parámetro. ¿cómo sabemos en que rango de valores estará el parámetro? Queremos tener:
- Alta confiabilidad : que el parámetro muy seguramente esté en el intervalo.
- Intervalos angostos
- No conocemos los parámetros (, )
- Podemos estimar en muestras (, )
- Sabemos el tamaño de la muestra, .
Intervalo de Confianza para
(La fórmula se desarrolla en Contento 2019, pg. 274 )
Dado un valor de confianza , un tamaño de muestra , una desviación estándar de la muestra , y un promedio de la muestra de , el intervalo de confianza es:
-
es una distribución t-student con grados de libertad.
-
es la probabilidad a cola derecha.
-
Para calcularla en python:
-
Se usa la librería
scipy.statsy de allí se calcula con la funciónt.ppf. -
Los argumentos de la función son y los grados de libertad
-
Por ejemplo, se calcula , para y , así:
from scipy.stats import t t.ppf(1-0.05,10)y si lo queremos usar después se puede asignar el valor a una variable.
-
Ejemplo, Contento 2019, pg 275.
Una agencia ambiental mide el promedio de masa () en 1 de aire. Toma Si hay mediciones, y obtiene los valores: 58, 70, 57, 61 y 59. Es decir tiene un , y , ¿cuál es el intervalo de confianza del 95% ?
Respuesta
Llamamos librerías:
import scipy.stats as st
import numpy as np
import pandas as pd
Calculamos el promedio y la desviacion estandar:
valores = np.array([58,70,57,61,59])
promedio = valores.mean()
S = st.tstd(valores)
Como queremos que la confianza sea del 95%, entonces tenemos que:
Esto quiere decir que y por lo tanto
Como son 5 mediciones, tenemos que
Con estos datos calculamos la distribución :
se calcula así:
from scipy.stats import t
t.ppf(1-0.025,4)
Como queremos usar el valor después, por precisión, podemos asignar a una variable:
t0=t.ppf(1-0.025,4)
Los valores de los extremos izquierdo y derecho serán:
Que siguiendo lo que hicimos, en el software se calcula como:
li = promedio - t0*S/np.sqrt(5)
ld = promedio + t0*S/np.sqrt(5)
print(li,ld)
Ahora si podemos aproximar a dos decimales.
El intervalo sería, entonces: (54.49,67.51)
Recursos
- Grabación de la explicación de ésta clase: Estimación Puntual y por Intervalo https://youtu.be/fcf4MZq0WiE?si=WSx-usuTEq8rZcvq
- Ejemplo usando software R: https://youtu.be/a7xO1dtJcTE?si=L2QTHugAVSAVSefs
- Contento, capítulo 5