2. Introducción a Pandas

2.1. Introducción

Esta lección se centra en Pandas, una poderosa biblioteca de Python para la manipulación y el análisis de datos. Exploraremos sus capacidades para manejar datos estructurados de manera efectiva.

2.2. Comprendiendo los conceptos básicos de Pandas

Pandas proporciona estructuras de datos como Series y DataFrame. Está construido sobre NumPy, lo que facilita el trabajo con datos estructurados.

Importando Pandas y Cargando Datos Simulados
import pandas as pd

# Datos simulados
data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda', 'Jack'],
    'Age': [28, 23, 25, 24, 30],
    'City': ['Nueva York', 'París', 'Berlín', 'Londres', 'Tokio']
}

# Creando un DataFrame
df = pd.DataFrame(data)

# Mostrando el DataFrame
print(df)

2.3. Análisis Exploratorio de Datos (EDA) con Pandas

Verifica las dimensiones de los datos y examina su estructura:

Verificando Dimensiones e Información de los Datos
# Forma del DataFrame
print(df.shape)

# Información sobre el DataFrame
print(df.info())

2.4. Limpieza y Transformación de Datos

Renombrar columnas:

Limpiando y Transformando Datos
# Renombrar columnas
df.rename(columns={'Name': 'Nombre Completo', 'City': 'Ubicación'}, inplace=True)

2.5. Manipulación y Agregación de Datos

Selecciona, filtra, agrupa y agrega datos:

Manipulación y Agregación de Datos
# Seleccionando columnas
print(df[['Nombre', 'Edad']])

# Filtrando datos
datos_filtrados = df[df['Edad'] > 25]
print(datos_filtrados)

# Agrupando y agregando datos
estadisticas_por_edad = df.groupby('Edad').size()
print(estadisticas_por_edad)

2.6. Visualización de Datos con Pandas y Matplotlib

Utiliza Matplotlib para las visualizaciones:

Visualización de Datos
import matplotlib.pyplot as plt

# Ejemplo de gráfico
df['Edad'].plot(kind='hist', bins=5)
plt.title('Distribución de Edad')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
display(plt, "plot_area") # Reemplazar con plt.show() si se ejecuta localmente

Note

Estamos utilizando PyScript para ejecutar NumPy y Matplotlib en el navegador. Usa plt.show() en lugar de display(plt, “plot_area”) para mostrar los gráficos si ejecutas el código localmente.

2.7. Ejemplo Interactivo

Aquí tienes un ejemplo interactivo donde puedes filtrar el DataFrame en función de la edad y visualizar los resultados:

Note

Asegúrate de ejecutar todos los bloques de código proporcionados para ver los resultados completos y comprender las funcionalidades demostradas.

2.8. Ejercicio

Escribe un código para calcular la edad promedio de las personas en el DataFrame.

You have attempted of activities on this page