Desarrollar un análisis completo que permita extraer datos sobre los pacientes que presentan afectaciones de diabetes, utilizando herramientas de modelos machine learning y el algoritmo Kmeans, para visualizar los resultados de manera efectiva.
Este trabajo de Machine Learning se centra en el desarrollo de un proyecto completo de análisis de datos, desde la exploración inicial hasta la evaluación de un modelo predictivo. El proceso se divide en tres fases principales:
- Identificación de preguntas de investigación
. Formulación de hipótesis
- Análisis inicial del conjunto de datos
- Limpieza de datos
- Transformación de variables
- Reducción de dimensionalidad
- Discretización cuando sea necesaria
- Implementación de modelo de regresión lineal o logística
- Selección y cálculo de métricas de evaluación
- Análisis del rendimiento del modelo
https://www.kaggle.com/datasets/ziya07/diabetes-clinical-dataset100k-rows
El Dataset entregado presenta los datos de pacientes que presentan afectaciones de diabetes. La idea es analizar cuáles son las causas para que un paciente tenga afectaciones de salud por esta enfermedad. Se debe realizar lo siguiente:
- Preprocesamiento de los datos: limpieza, revisión de datos faltantes-anómalos, reducción de datos (seleccionar características relevantes) y transformaciones.
- Análisis exploratorio (EDA) de los datos para responder al problema: ¿Qué características hacen que se diagnostique a una persona con diabetes?.
- Entrenamiento de una red neuronal.
| Ítem | Puntos |
|---|---|
| Análisis exploratorio en notebook | 10 pts |
| Preprocesamiento de los datos | 15 pts |
| Entrenamiento del Modelo de Machine Learning con redes neuronales | 15 pts |
| Evaluación del modelo 75% Accuracy | 10 pts |
| Total | 50 pts |
| User: | David Gutierrez Chaves |
|---|---|
| Code: | 506222728 |
| Subject: | Big Data Electiva-I |
| Institution: | Fundación Universitaria Konrad Lorenz |
| Institutional email | [email protected] |
https://github.com/dg2c4