Thanks to visit codestin.com
Credit goes to github.com

Skip to content

Jivl00/KIV_DBM2

Repository files navigation

KIV/DBM2 – Databázové systémy a metody zpracování informací 2

Analýza zdravotního stavu a délky života psích plemen pomocí datové analýzy

Tento repozitář obsahuje řešení semestrální práce z předmětu KIV/DBM2 – Databázové systémy a metody zpracování informací 2 na Katedře informatiky a výpočetní techniky, Fakulty aplikovaných věd, Západočeské univerzity v Plzni.

Cílem projektu bylo analyzovat a zpracovat reálná data o psích plemenech a jejich zdravotních charakteristikách za účelem odpovědi na výzkumnou otázku, zda vyšlechtěná plemena trpí více zdravotními problémy a dožívají se nižšího věku. Dále byl vytvořen prediktor délky života psů.


Obsah


Popis projektu

V rámci projektu byla analyzována dvě datová sada z webu Kaggle.com:

  1. Dog Breeds – obsahuje základní popis 117 psích plemen, včetně délky života, původu, výšky, srsti, charakteru a zdravotních problémů.
  2. Dog Breeds Ranked – detailnější dataset pro 87 plemen se širším spektrem atributů, včetně inteligence, nákladů, genetických problémů a dalších.

Postup práce:

  • Předzpracování dat: odstranění chybějících a duplicitních hodnot, čištění a sjednocení datových typů, sloučení obou datasetů podle jména plemene.
  • Feature engineering: vytvoření nových atributů a doplnění některých chybějících hodnot pomocí regresních modelů nebo externích zdrojů.
  • Analýza a vizualizace: korelační matice, histogramy, rozptylové grafy, detekce závislostí mezi proměnnými.
  • Modelování: predikce délky života pomocí regresních algoritmů (Linear Regression, Random Forest). Klíčovými prediktory byly výška, pořizovací cena a popularita plemene.

Závěry:

  • Průměrná délka života plemen v souboru je 11,96 let.
  • Nejsilnější pozitivní korelace byla mezi délkou života a celoživotními náklady.
  • Plemena s vyšší pořizovací cenou často žijí kratší dobu, což potvrzuje hypotézu o negativním vlivu přehnaného šlechtění.
  • Nejčastější zdravotní problémy souvisí s očima, kůží a kyčlemi.

Požadavky

  • Python 3.10+
  • pandas
  • numpy
  • matplotlib
  • seaborn
  • scikit-learn

Použití

Hlavní skript pro analýzu je Analýza faktorů ovlivňujících výskyt nemocí u jednotlivých plemen psů.ipynb. Spuštění a úpravy proveďte v prostředí Jupyter Notebook:

jupyter notebook "Analýza faktorů ovlivňujících výskyt nemocí u jednotlivých plemen psů.ipynb"

About

Semestrální práce z předmětu Databázové systémy a metody zpracování informací 2

Topics

Resources

Stars

Watchers

Forks