0% found this document useful (0 votes)

8 views7 pages

Unit 3 Data Science

The document outlines the phases of a data science project, starting from business understanding to feedback collection. Each phase includes definitions, key objectives, tasks involved, and examples, emphasizing the importance of aligning data science efforts with business goals. The process covers everything from identifying business problems to deploying models and continuously improving them based on feedback.

Uploaded by

sanyogbiswal22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views7 pages

Unit 3 Data Science

Uploaded by

sanyogbiswal22

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 7

UNIT 3 DATA SCIENCE

🔹 1. Business Understanding
✅ Definition:

This is the first and most critical phase of a data science project. It involves gaining a clear
understanding of the business context, goals, objectives, and problems to be solved.

✅ Key Objectives:

 Understand the domain and industry.

 Translate business problems into data science problems.
 Define success criteria from a business perspective.

✅ Tasks Involved:

 Meeting stakeholders (e.g., marketing, finance, sales)

 Identifying pain points (e.g., churn, low sales)
 Formulating problem statements (e.g., “Predict customer churn”)
 Understanding constraints (budget, time, data availability)

✅ Example:

If a retail company has declining sales, the business problem might be:
“Identify key reasons for sales drop and predict future sales to improve stock management.”

🔹 2. Analytics Approach
✅ Definition:

This phase outlines the analytical techniques and methodologies suitable for solving the
defined business problem.

✅ Key Objectives:

 Decide whether the problem is classification, regression, clustering,

recommendation, etc.
 Select modeling techniques: statistical models, machine learning, deep learning, etc.
 Define performance metrics: accuracy, precision, recall, RMSE, etc.

✅ Tasks Involved:

 Mapping problem to algorithms

 Selecting evaluation strategies (cross-validation, A/B testing)
 Considering data types (structured/unstructured)

✅ Example:

If the task is to identify customer churn, logistic regression or decision trees could be
appropriate approaches.

🔹 3. Data Requirements
✅ Definition:

In this step, the data scientist defines what kind of data is needed to perform the analysis or
modeling.

✅ Key Objectives:

 Identify data sources and required attributes.

 Determine volume, velocity, and variety of data.
 Understand data granularity and frequency.

✅ Tasks Involved:

 Listing required data columns (e.g., age, purchase history)

 Data sampling or aggregation needs
 Noting privacy/security constraints

✅ Example:

For customer behavior analysis, data might be required on demographics, browsing history,
purchase history, and support tickets.

🔹 4. Data Collection
✅ Definition:

This is the process of gathering the required data from internal or external sources.
✅ Key Objectives:

 Acquire data from reliable sources.

 Ensure data accessibility and availability.
 Maintain data integrity during collection.

✅ Tasks Involved:

 Extracting data from databases, APIs, files, web scraping

 Working with data engineers to access data lakes/warehouses
 Storing data securely

✅ Example:

Collect customer transaction data from SQL databases and social media engagement data via
APIs.

🔹 5. Data Understanding
✅ Definition:

This phase involves exploratory data analysis (EDA) to understand data quality, patterns,
anomalies, and relationships.

✅ Key Objectives:

 Understand distributions, missing values, and data types.

 Identify trends, outliers, or inconsistencies.
 Assess whether the data is suitable for analysis.

✅ Tasks Involved:

 Statistical summaries (mean, median, std dev)

 Visualization (histograms, box plots, scatter plots)
 Correlation analysis

✅ Example:

Plotting customer age distribution, checking if older users buy more, spotting missing income
values.

🔹 6. Data Preparation
✅ Definition:

Also known as data wrangling or data preprocessing, this phase prepares data for analysis
by cleaning and transforming it.

✅ Key Objectives:

 Improve data quality.

 Format data correctly for algorithms.
 Create new features or variables.

✅ Tasks Involved:

 Handling missing values (imputation or removal)

 Removing duplicates
 Feature scaling (normalization, standardization)
 Encoding categorical variables
 Creating derived variables

✅ Example:

Convert gender column to 0/1, scale income values, and fill missing ages using median age.

🔹 7. Modeling
✅ Definition:

This is the phase where machine learning or statistical models are trained using the
prepared data.

✅ Key Objectives:

 Select suitable algorithms.

 Train models using training data.
 Tune model parameters for best performance.

✅ Tasks Involved:

 Model training and testing

 Cross-validation
 Hyperparameter tuning (e.g., using Grid Search)
 Comparing different models

✅ Example:
Train a decision tree and a random forest to predict customer churn and compare their
accuracy.

🔹 8. Evaluation
✅ Definition:

Evaluate how well the model performs using defined metrics and business expectations.

✅ Key Objectives:

 Check if the model solves the business problem effectively.

 Measure performance on unseen/test data.
 Verify with stakeholders if results are actionable.

✅ Tasks Involved:

 Calculate metrics (Accuracy, Precision, Recall, AUC, RMSE, etc.)

 Confusion matrix analysis
 Business validation: “Is this useful?”

✅ Example:

Your churn model predicts 85% accuracy, but business asks, “Can it detect high-value
customers who might leave?”

🔹 9. Deployment
✅ Definition:

The process of putting the model into production so it can be used in real-world scenarios.

✅ Key Objectives:

 Make the model accessible (as an app, API, or embedded in software).

 Ensure system integration.
 Plan for scalability and monitoring.

✅ Tasks Involved:

 Model exporting and hosting (Flask, FastAPI, AWS, Azure)

 Creating dashboards or user interfaces
 Scheduling model retraining if needed

✅ Example:

Deploy the churn prediction model in a CRM tool so sales teams get churn alerts for follow-
up.

🔹 10. Feedback
✅ Definition:

Collecting and analyzing feedback to improve the model or system continuously.

✅ Key Objectives:

 Measure real-world effectiveness.

 Track changes in data (data drift).
 Adapt model to new business conditions.

✅ Tasks Involved:

 Monitor predictions and accuracy over time.

 Collect user/stakeholder feedback.
 Plan versioning and retraining.

✅ Example:

If the churn model accuracy drops after 3 months due to new customer behavior, retrain it
with recent data.

Interactive Cyber Security Career Roadmap
100% (1)
Interactive Cyber Security Career Roadmap
22 pages
Crisp-Dm
No ratings yet
Crisp-Dm
4 pages
Matsonic MS8127C
No ratings yet
Matsonic MS8127C
80 pages
3d Printer PDF
No ratings yet
3d Printer PDF
90 pages
Data Science Guide for Professionals
No ratings yet
Data Science Guide for Professionals
10 pages
Business Intelligence Handbook
No ratings yet
Business Intelligence Handbook
33 pages
Mzpack 3 User Guide (En)
No ratings yet
Mzpack 3 User Guide (En)
102 pages
Lotus Ques & Ans
No ratings yet
Lotus Ques & Ans
40 pages
Architecture of Data Science Projects: Components
No ratings yet
Architecture of Data Science Projects: Components
4 pages
Data Science: A Comprehensive Guide
No ratings yet
Data Science: A Comprehensive Guide
5 pages
Intro to Data Science Basics
No ratings yet
Intro to Data Science Basics
11 pages
CC2530ZNP Mini Kit Quick Start Guide
No ratings yet
CC2530ZNP Mini Kit Quick Start Guide
2 pages
Data Analytic Project
No ratings yet
Data Analytic Project
5 pages
Designing For DTG: Prep School: File Type
No ratings yet
Designing For DTG: Prep School: File Type
11 pages
Network Security Essentials Guide
No ratings yet
Network Security Essentials Guide
22 pages
Data Mining Applications & CRISP-DM
No ratings yet
Data Mining Applications & CRISP-DM
5 pages
Week 3
No ratings yet
Week 3
3 pages
Data Science Process Overview
No ratings yet
Data Science Process Overview
11 pages
EBook - Data Science 4
No ratings yet
EBook - Data Science 4
14 pages
Process Simulator & Visio: Optimize Business Models
No ratings yet
Process Simulator & Visio: Optimize Business Models
2 pages
Module1 Data Science
No ratings yet
Module1 Data Science
15 pages
Assignment PDC 1107
No ratings yet
Assignment PDC 1107
3 pages
IDS - UNIT-2 - Notes Part1 - Introduction To Data Science and Prob Concept
No ratings yet
IDS - UNIT-2 - Notes Part1 - Introduction To Data Science and Prob Concept
66 pages
New Features Guide: Digital Camera
No ratings yet
New Features Guide: Digital Camera
10 pages
Data Science Methodology
No ratings yet
Data Science Methodology
21 pages
F-Secure Admin Guide
No ratings yet
F-Secure Admin Guide
136 pages
Ids Model 2
No ratings yet
Ids Model 2
63 pages
Grade 6 ICT Exam 2019 Questions
No ratings yet
Grade 6 ICT Exam 2019 Questions
6 pages
Steps in Data Science & Analysis
No ratings yet
Steps in Data Science & Analysis
2 pages
Module 3 Lesson 1 GEC 13
No ratings yet
Module 3 Lesson 1 GEC 13
2 pages
Data Science Notes 1
No ratings yet
Data Science Notes 1
3 pages
Data Science
No ratings yet
Data Science
8 pages
Alexander Tan: Expert Graphic Designer Profile
No ratings yet
Alexander Tan: Expert Graphic Designer Profile
1 page
Data Science MBA
No ratings yet
Data Science MBA
6 pages
Each Stage of A Data Mining Project
No ratings yet
Each Stage of A Data Mining Project
5 pages
Data Science Notes
No ratings yet
Data Science Notes
3 pages
Data Analytics Fundamentals
No ratings yet
Data Analytics Fundamentals
3 pages
Introduction To Word, Ribbons and QAT
No ratings yet
Introduction To Word, Ribbons and QAT
2 pages
Data Science Process
No ratings yet
Data Science Process
7 pages
Data Science & Cyber Security
No ratings yet
Data Science & Cyber Security
13 pages
Cloud Computing and The Next Generation of Enterprise Architecture
No ratings yet
Cloud Computing and The Next Generation of Enterprise Architecture
27 pages
Employee Pay Slip - January 2022
No ratings yet
Employee Pay Slip - January 2022
1 page
IMP Questions & Ans On ML & CI Using Python
No ratings yet
IMP Questions & Ans On ML & CI Using Python
21 pages
Tutorial - 5 and 6
100% (1)
Tutorial - 5 and 6
2 pages
Data Processes
No ratings yet
Data Processes
4 pages
Data Science
No ratings yet
Data Science
3 pages
Crisp Note
No ratings yet
Crisp Note
5 pages
Navigation With Compose - Jetpack Compose - Android Developers
No ratings yet
Navigation With Compose - Jetpack Compose - Android Developers
15 pages
As You Delve Into The World of Data Analytics
No ratings yet
As You Delve Into The World of Data Analytics
10 pages
Foundry Certification Guide - Solution Architect
No ratings yet
Foundry Certification Guide - Solution Architect
6 pages
Ads Imp Qna 2025 15 04 06 06 35
No ratings yet
Ads Imp Qna 2025 15 04 06 06 35
33 pages
A Structured Learning Guide For Becoming A Data Scientist
No ratings yet
A Structured Learning Guide For Becoming A Data Scientist
9 pages
Machine Learning
No ratings yet
Machine Learning
7 pages
Cricket & Stock Analysis Dashboard
No ratings yet
Cricket & Stock Analysis Dashboard
12 pages
Step by Step Data Wrangling
No ratings yet
Step by Step Data Wrangling
4 pages
Data Science Additional Content
No ratings yet
Data Science Additional Content
6 pages
4
No ratings yet
4
2 pages
DS - Unit I
No ratings yet
DS - Unit I
3 pages
Dsur Ea2352001010391 W3
No ratings yet
Dsur Ea2352001010391 W3
3 pages
Ds Final
No ratings yet
Ds Final
3 pages
Introduction To Data Science Methodology
No ratings yet
Introduction To Data Science Methodology
45 pages
2-2 External Lab
No ratings yet
2-2 External Lab
3 pages
Data Analytics Value Chain
No ratings yet
Data Analytics Value Chain
5 pages
Azure Storage
No ratings yet
Azure Storage
4 pages
Steps For Data Analytics
No ratings yet
Steps For Data Analytics
6 pages
9th EM L 2 MCQ
No ratings yet
9th EM L 2 MCQ
7 pages
Rakshana SN - LAQ Week 2 DA
No ratings yet
Rakshana SN - LAQ Week 2 DA
3 pages
Unit 3 (DS)
No ratings yet
Unit 3 (DS)
32 pages
Ebay Adan
No ratings yet
Ebay Adan
70 pages
Adama TVET College
No ratings yet
Adama TVET College
12 pages
Wa0001.
No ratings yet
Wa0001.
9 pages
Data Science
No ratings yet
Data Science
17 pages
Machine Learning
No ratings yet
Machine Learning
5 pages
Data Analytics Lifecycle
No ratings yet
Data Analytics Lifecycle
16 pages
Pa Unit 2
No ratings yet
Pa Unit 2
6 pages
2024 Navori Presentation English PDF
No ratings yet
2024 Navori Presentation English PDF
38 pages
Inthiyas Phase2 PRJ
No ratings yet
Inthiyas Phase2 PRJ
8 pages
Data Mining 1
No ratings yet
Data Mining 1
7 pages
Data Science Life Cycle
No ratings yet
Data Science Life Cycle
12 pages
Mathematics
No ratings yet
Mathematics
2 pages
Data Science Textbook
No ratings yet
Data Science Textbook
7 pages
Data Mining
No ratings yet
Data Mining
18 pages
? Data Preprocessing
No ratings yet
? Data Preprocessing
19 pages
Data Science Process
No ratings yet
Data Science Process
13 pages
Data Science Assignment Final
No ratings yet
Data Science Assignment Final
2 pages
Introduction To Predictive Analytics: UNIT-1
No ratings yet
Introduction To Predictive Analytics: UNIT-1
14 pages
Lesson2 Notes
No ratings yet
Lesson2 Notes
13 pages

Unit 3 Data Science

Uploaded by

Unit 3 Data Science

Uploaded by

UNIT 3 DATA SCIENCE

 Understand the domain and industry.

 Meeting stakeholders (e.g., marketing, finance, sales)

 Decide whether the problem is classification, regression, clustering,

 Mapping problem to algorithms

 Identify data sources and required attributes.

 Listing required data columns (e.g., age, purchase history)

 Acquire data from reliable sources.

 Extracting data from databases, APIs, files, web scraping

 Understand distributions, missing values, and data types.

 Statistical summaries (mean, median, std dev)

 Improve data quality.

 Handling missing values (imputation or removal)

 Select suitable algorithms.

 Model training and testing

 Check if the model solves the business problem effectively.

 Calculate metrics (Accuracy, Precision, Recall, AUC, RMSE, etc.)

 Make the model accessible (as an app, API, or embedded in software).

 Model exporting and hosting (Flask, FastAPI, AWS, Azure)

Collecting and analyzing feedback to improve the model or system continuously.

 Measure real-world effectiveness.

 Monitor predictions and accuracy over time.

You might also like