Skip to content

Pandas

Published: at 12:00 AM

DataFrames

La estructura de datos que se usa en pandas es el dataframe. Se puede crear de varias formas, pero la más común y sencilla es leer un conjunto de datos desde un archivo de texto, como lo hicimos anteriormente.

Habiendo descargado el archivo Nacimientos_1998.csv, se carga en un DataFrame que se llama df así:

import pandas as pd
df = pd.read_csv('Nacimientos_1998.csv',sep=';')

Particularidades de cargar los DataFrames

Características de los DataFrames

Se pueden averiguar las características de los dataframes así:

   cod_dpto  cod_munic  areanac  sit_parto               nom_inst     cod_inst  sexo  ...  n_hijosv  fecha_nacm  n_emb  seg_social  edad_padre  niv_edup  profesion
0        27          6        1          1  HL LASCARIO BARBOZA A  270060013.0     1  ...         1         NaN      1           9          15         9          1
1        27         73        1          1            CSCC BAGADO  270730019.0     2  ...        99         NaN     99           9          99         9          2
2        27         75        2          2                    NaN          NaN     2  ...         1         NaN      1           9          25         2          3
3        27        361        2          1            CS ANDAGOYA  273610065.0     1  ...         1         NaN      1           9          19         3          1
4        27        361        2          1            CS ANDAGOYA  273610065.0     2  ...         1         NaN      1           9          33         3          1

[5 rows x 33 columns]

I

Out[14]: 
        cod_dpto  cod_munic  areanac  sit_parto nom_inst cod_inst  sexo  peso_nac  ...  area_res  n_hijosv  fecha_nacm  n_emb  seg_social  edad_padre  niv_edup  profesion
720979        73        168        1          2      NaN      NaN     2         9  ...       9.0        99         NaN     99           9          99         9          9
720980        17        524        1          2      NaN      NaN     2         9  ...       9.0        99         NaN     99           9          48         9          4
720981        70        124        9          2      NaN      NaN     1         9  ...       9.0        99         NaN     99           9          33         9          9
720982        13        760        9          2      NaN      NaN     1         9  ...       9.0        99         NaN     99           9          99         9          9
720983        76        606        9          9      NaN      NaN     1         9  ...       9.0        99         NaN     99           9          99         9          4

[5 rows x 33 columns]

Accediendo a variables (columnas)

En principio, cada columna corresponde a una variable.

Para acceder a los registros se puede:

Funciones sobre las variables

Estas funciones son comunes a numpy, entonces no son únicas de los DataFrames, pero para nosotros basta con mencionarlas aquí. Mencionammos unas pocas, hay muchas más. Revisar la bibliografía de numpy y pandas.

Filtros sobre las variables.

Se pueden filtrar valores con los operadores lógicos. Por ejemplo, para filtrar todos los nacimientos en que el código de municipio es 88 se crea primero un vector que indique si el código es ese:

filtro1 = df.cod_munic == 88

Y ahora se usa para filtrar

muncod88 = df[filtro1]

Si queremos usar dos filtros, podemos usar el operador & para unir dos vectores de filtro:

filtro2 = (df.cod_munic == 88) & (df.cod_dpto ==5)

Y luego podemos filtrar con este vector

m88d5 = df[filtro2]

Taller

OJO! ⚠️ Errores comunes


Previous Post
Capítulo libro: Introducción a la Inteligencia Artificial
Next Post
Testing Mermaid