2. Introducción a Pandas¶
2.1. Introducción¶
Esta lección se centra en Pandas, una poderosa biblioteca de Python para la manipulación y el análisis de datos. Exploraremos sus capacidades para manejar datos estructurados de manera efectiva.
2.2. Comprendiendo los conceptos básicos de Pandas¶
Pandas proporciona estructuras de datos como Series y DataFrame. Está construido sobre NumPy, lo que facilita el trabajo con datos estructurados.
import pandas as pd
# Datos simulados
data = {
'Name': ['John', 'Anna', 'Peter', 'Linda', 'Jack'],
'Age': [28, 23, 25, 24, 30],
'City': ['Nueva York', 'París', 'Berlín', 'Londres', 'Tokio']
}
# Creando un DataFrame
df = pd.DataFrame(data)
# Mostrando el DataFrame
print(df)
2.3. Análisis Exploratorio de Datos (EDA) con Pandas¶
Verifica las dimensiones de los datos y examina su estructura:
# Forma del DataFrame
print(df.shape)
# Información sobre el DataFrame
print(df.info())
2.4. Limpieza y Transformación de Datos¶
Renombrar columnas:
# Renombrar columnas
df.rename(columns={'Name': 'Nombre Completo', 'City': 'Ubicación'}, inplace=True)
2.5. Manipulación y Agregación de Datos¶
Selecciona, filtra, agrupa y agrega datos:
# Seleccionando columnas
print(df[['Nombre', 'Edad']])
# Filtrando datos
datos_filtrados = df[df['Edad'] > 25]
print(datos_filtrados)
# Agrupando y agregando datos
estadisticas_por_edad = df.groupby('Edad').size()
print(estadisticas_por_edad)
2.6. Visualización de Datos con Pandas y Matplotlib¶
Utiliza Matplotlib para las visualizaciones:
import matplotlib.pyplot as plt
# Ejemplo de gráfico
df['Edad'].plot(kind='hist', bins=5)
plt.title('Distribución de Edad')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
display(plt, "plot_area") # Reemplazar con plt.show() si se ejecuta localmente
Note
Estamos utilizando PyScript para ejecutar NumPy y Matplotlib en el navegador. Usa plt.show() en lugar de display(plt, “plot_area”) para mostrar los gráficos si ejecutas el código localmente.
2.7. Ejemplo Interactivo¶
Aquí tienes un ejemplo interactivo donde puedes filtrar el DataFrame en función de la edad y visualizar los resultados:
Note
Asegúrate de ejecutar todos los bloques de código proporcionados para ver los resultados completos y comprender las funcionalidades demostradas.
2.8. Ejercicio¶
Escribe un código para calcular la edad promedio de las personas en el DataFrame.