Analýza zdravotního stavu a délky života psích plemen pomocí datové analýzy
Tento repozitář obsahuje řešení semestrální práce z předmětu KIV/DBM2 – Databázové systémy a metody zpracování informací 2 na Katedře informatiky a výpočetní techniky, Fakulty aplikovaných věd, Západočeské univerzity v Plzni.
Cílem projektu bylo analyzovat a zpracovat reálná data o psích plemenech a jejich zdravotních charakteristikách za účelem odpovědi na výzkumnou otázku, zda vyšlechtěná plemena trpí více zdravotními problémy a dožívají se nižšího věku. Dále byl vytvořen prediktor délky života psů.
V rámci projektu byla analyzována dvě datová sada z webu Kaggle.com:
- Dog Breeds – obsahuje základní popis 117 psích plemen, včetně délky života, původu, výšky, srsti, charakteru a zdravotních problémů.
- Dog Breeds Ranked – detailnější dataset pro 87 plemen se širším spektrem atributů, včetně inteligence, nákladů, genetických problémů a dalších.
Postup práce:
- Předzpracování dat: odstranění chybějících a duplicitních hodnot, čištění a sjednocení datových typů, sloučení obou datasetů podle jména plemene.
- Feature engineering: vytvoření nových atributů a doplnění některých chybějících hodnot pomocí regresních modelů nebo externích zdrojů.
- Analýza a vizualizace: korelační matice, histogramy, rozptylové grafy, detekce závislostí mezi proměnnými.
- Modelování: predikce délky života pomocí regresních algoritmů (Linear Regression, Random Forest). Klíčovými prediktory byly výška, pořizovací cena a popularita plemene.
Závěry:
- Průměrná délka života plemen v souboru je 11,96 let.
- Nejsilnější pozitivní korelace byla mezi délkou života a celoživotními náklady.
- Plemena s vyšší pořizovací cenou často žijí kratší dobu, což potvrzuje hypotézu o negativním vlivu přehnaného šlechtění.
- Nejčastější zdravotní problémy souvisí s očima, kůží a kyčlemi.
- Python 3.10+
- pandas
- numpy
- matplotlib
- seaborn
- scikit-learn
Hlavní skript pro analýzu je Analýza faktorů ovlivňujících výskyt nemocí u jednotlivých plemen psů.ipynb. Spuštění a úpravy proveďte v prostředí Jupyter Notebook:
jupyter notebook "Analýza faktorů ovlivňujících výskyt nemocí u jednotlivých plemen psů.ipynb"