Skip to content

Datos Faltantes

Published: at 12:00 AM

Datos Faltantes

Tipos de datos faltantes

Según Chen et al., existen tres tipos de datos faltantes:

Además proponemos la siguiente categoría:

Estrategias para identificar datos faltantes

(ésta sección sigue la teoría en VanderPlas)

Existen diferentes estrategias para indicar la presencia de datos faltantes en las tablas o DataFrames. Ninguna de éstas estrategias es perfecta.

máscaras (del inglés mask)

Se genera un arreglo booleano separado, o una representación en la tabla para indicar el estado nulo del valor.

Como desventajas de ésta estrategia está el que su implementación requiere más espacio para guardar el arreglo de máscara.

valores sentinel (del inglés sentinel value)

Los valores faltantes se remplazan por un valor específico, por ejemplo se usa un valor negativo como -999, u otro valor específico diferente a los datos presentes, o una convención global como el uso de la clase NaN.

Como desventajas tenemos que la presencia de éstos valores puede generar errores al calcular agregados.

En Pandas

Pandas implementa la estrategia de valores sentinel, específicamente al generar un DataFrame en pandas en la que haya datos faltantes se usan dos tipos de dato nulo que existen previamente en Python: NaN y None.

import pandas as pd # cargamos la librería

Ejemplos:

Operaciones sobre valores nulos

Bibliografía

Footnotes

  1. Se ejecuta así: data.isnull(). El resultado es un arreglo booleano, con los índices del 0 al 4, y con los valores True,False,True,False; que corresponden respectivamente a los valores del arreglo [1, np.nan, 'hello', None].


Previous Post
Analisis de Varianza (ANOVA)
Next Post
Estimación puntual y por intervalo