En este proyecto, trabajamos con datos de Instacart.
Instacart es una plataforma de entregas de comestibles donde la clientela puede registrar un pedido y hacer que se lo entreguen, similar a Uber Eats y Door Dash. Este conjunto de datos particular fue lanzado públicamente por Instacart en 2017 para una competición Kaggle. Los datos reales pueden descargarse directamente de la página de la competición Kaggle.
El conjuto de datos que se muestra tiene modificaciones del original. Redujimos el tamaño del conjunto para que tus cálculos se hicieran más rápido e introdujimos valores ausentes y duplicados. Tuvimos cuidado de conservar las distribuciones de los datos originales cuando hicimos los cambios.
La tarea del proyecto es limpiar los datos y preparar un informe que brinde información sobre los hábitos de compra de los clientes de Instacart. Después de responder a cada pregunta mostrada en el Jupyter Notebook(.ipynb), escribir una breve explicación de los resultados en una celda markdown en el Jupyter notebook.
Hay cinco tablas en el conjunto de datos, y tendrás que usarlas todas para hacer el preprocesamiento de datos y el análisis exploratorio de datos.
Este proyecto requerirá hacer gráficos que comuniquen los resultados.
- instacart_orders.csv: cada fila corresponde a un pedido en la aplicación Instacart.
- products.csv: cada fila corresponde a un producto único que pueden comprar los clientes.
- order_products.csv: cada fila corresponde a un artículo pedido en un pedido.
- aisles.csv
- departments.csv
Conjunto de datos lanzado públicamente por Instacart en 2017
Aprendí mucho sobre EDA y visualizaciones de datos. La clave para todo análisis es asegurarse que tengas el tipo correcto de datos para cada variable.