Skip to content

2024 S2 A.vi Pandas

Published: at 12:00 AM

DataFrames

La estructura de datos que se usa en pandas es el dataframe. Se puede crear de varias formas, pero la más común y sencilla es leer un conjunto de datos desde un archivo de texto, como lo hicimos anteriormente.

Habiendo descargado el archivo Nacimientos_1998.csv, se carga en un DataFrame que se llama df así:

import pandas as pd
df = pd.read_csv('Nacimientos_1998.csv',sep=';')

Particularidades de cargar los DataFrames

Características de los DataFrames

Se pueden averiguar las características de los dataframes así:

   cod_dpto  cod_munic  areanac  sit_parto               nom_inst     cod_inst  sexo  ...  n_hijosv  fecha_nacm  n_emb  seg_social  edad_padre  niv_edup  profesion
0        27          6        1          1  HL LASCARIO BARBOZA A  270060013.0     1  ...         1         NaN      1           9          15         9          1
1        27         73        1          1            CSCC BAGADO  270730019.0     2  ...        99         NaN     99           9          99         9          2
2        27         75        2          2                    NaN          NaN     2  ...         1         NaN      1           9          25         2          3
3        27        361        2          1            CS ANDAGOYA  273610065.0     1  ...         1         NaN      1           9          19         3          1
4        27        361        2          1            CS ANDAGOYA  273610065.0     2  ...         1         NaN      1           9          33         3          1

[5 rows x 33 columns]

I

Out[14]: 
        cod_dpto  cod_munic  areanac  sit_parto nom_inst cod_inst  sexo  peso_nac  ...  area_res  n_hijosv  fecha_nacm  n_emb  seg_social  edad_padre  niv_edup  profesion
720979        73        168        1          2      NaN      NaN     2         9  ...       9.0        99         NaN     99           9          99         9          9
720980        17        524        1          2      NaN      NaN     2         9  ...       9.0        99         NaN     99           9          48         9          4
720981        70        124        9          2      NaN      NaN     1         9  ...       9.0        99         NaN     99           9          33         9          9
720982        13        760        9          2      NaN      NaN     1         9  ...       9.0        99         NaN     99           9          99         9          9
720983        76        606        9          9      NaN      NaN     1         9  ...       9.0        99         NaN     99           9          99         9          4

[5 rows x 33 columns]

Accediendo a variables (columnas)

En principio, cada columna corresponde a una variable.

Para acceder a los registros se puede:

Funciones sobre las variables

Estas funciones son comunes a numpy, entonces no son únicas de los DataFrames, pero para nosotros basta con mencionarlas aquí. Mencionammos unas pocas, hay muchas más. Revisar la bibliografía de numpy y pandas.

Histogramas 🆕

Para crear un histograma se usa la librería matplotlib.pyplot y el comando hist. Primero llamamos la librería:

import matplotlib.pyplot as plt

Para hacer un histograma, digamos del peso al nacer, averiguamos primero cuáles son las categorías. Eso lo podemos hacer con un uso del comando unique:

print(df['peso_nac'].unique)

Hágalo. Qué categorías de peso obtiene?

Luego, para hacer un histograma, usamos el comando ‘plt.hist’. Se usa un número mayor a la categoría más alta. Como son 9 categorías, se usa 10:

plt.hist(df['peso_nac'],range=(1,10),bins=9)

Esto genera el histograma, de 9 divisiones, comenzando en 1.

También imprime dos vectores. El primero son las cuentas de los valores en las clases o categorías. El segundo es las divisiones de las categorías.

Material Complementario

Evaluación 2: Representación de datos de estadísticas vitales DANE

Este ejercicio se hará en grupos de hasta tres personas. La evaluación del ejercicio corresponde a una de las evaluaciones del curso.

Fecha de Entrega 16 de Septiembre 2025.


Previous Post
2024 S2 A.vi Pandas
Next Post
Algoritmos