0% found this document useful (0 votes)

13 views5 pages

DWM Lab1

The document outlines a lab experiment focused on constructing a data warehouse, including defining a real-life problem, creating star and snowflake schemas, and performing ETL operations. It provides a Python script that generates sample CSV files, creates star schema tables in SQLite, and loads data into these tables. The process concludes with displaying sample data from the FactSales table.

Uploaded by

priyankasapkale375

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views5 pages

DWM Lab1

Uploaded by

priyankasapkale375

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Subject – Data Warehouse and Mining Lab

SR NO- 1
Name of experiment - Data Warehouse Construction a) Real life Problem
to be defined for Warehouse Design
b) Construction of star schema and snow flake schema c) ETL Operations.

import sqlite3
import pandas as pd

# --- Step 1: Create sample CSV files ---

def create_sample_csvs():
products_csv = """Product_ID,Product_Name,Category,Brand,Price
101,Laptop X1,Electronics,TechBrand,1200.00
102,Headphones A2,Electronics,SoundMax,150.00
103,Smartphone Z5,Electronics,MobilePro,850.00
"""
stores_csv = """Store_ID,Store_Name,City,Region
201,Downtown Store,New York,East
202,Uptown Store,Chicago,Midwest
203,Suburban Store,San Francisco,West
"""
customers_csv = """Customer_ID,Name,Gender,Age,Membership_Level
301,Alice Johnson,Female,34,Gold
302,Bob Smith,Male,28,Silver
303,Carol Lee,Female,41,Platinum
"""
dates_csv = """Date_ID,Date,Month,Quarter,Year
1,2025-07-01,July,Q3,2025
2,2025-07-02,July,Q3,2025
3,2025-07-03,July,Q3,2025
"""
sales_csv =
"""Sale_ID,Date_ID,Product_ID,Store_ID,Customer_ID,Quantity_Sold,Total_
Amount
1,1,101,201,301,1,0
2,2,102,202,302,0,0
3,3,103,203,303,1,0
"""

# Write CSV contents to files

with open("products.csv", "w") as f:
f.write(products_csv)
with open("stores.csv", "w") as f:
f.write(stores_csv)
with open("customers.csv", "w") as f:
f.write(customers_csv)
with open("dates.csv", "w") as f:
f.write(dates_csv)
with open("sales.csv", "w") as f:
f.write(sales_csv)

print("Sample CSV files created.")

# --- Step 2: Create Star Schema tables ---

def create_star_schema(conn):
cursor = conn.cursor()

cursor.execute("""
CREATE TABLE IF NOT EXISTS DimDate (
Date_ID INTEGER PRIMARY KEY,
Date TEXT,
Month TEXT,
Quarter TEXT,
Year INTEGER
);
""")

cursor.execute("""
CREATE TABLE IF NOT EXISTS DimProduct (
Product_ID INTEGER PRIMARY KEY,
Product_Name TEXT,
Category TEXT,
Brand TEXT,
Price REAL
);
""")

cursor.execute("""
CREATE TABLE IF NOT EXISTS DimStore (
Store_ID INTEGER PRIMARY KEY,
Store_Name TEXT,
City TEXT,
Region TEXT
);
""")

cursor.execute("""
CREATE TABLE IF NOT EXISTS DimCustomer (
Customer_ID INTEGER PRIMARY KEY,
Name TEXT,
Gender TEXT,
Age INTEGER,
Membership_Level TEXT
);
""")

cursor.execute("""
CREATE TABLE IF NOT EXISTS FactSales (
Sale_ID INTEGER PRIMARY KEY,
Date_ID INTEGER,
Product_ID INTEGER,
Store_ID INTEGER,
Customer_ID INTEGER,
Quantity_Sold INTEGER,
Total_Amount REAL,
FOREIGN KEY (Date_ID) REFERENCES DimDate(Date_ID),
FOREIGN KEY (Product_ID) REFERENCES DimProduct(Product_ID),
FOREIGN KEY (Store_ID) REFERENCES DimStore(Store_ID),
FOREIGN KEY (Customer_ID) REFERENCES DimCustomer(Customer_ID)
);
""")

conn.commit()
print("Star schema tables created.")

# --- Step 3: ETL process ---

def etl_load_from_csv(conn):
# Load CSV files
df_products = pd.read_csv("products.csv")
df_stores = pd.read_csv("stores.csv")
df_customers = pd.read_csv("customers.csv")
df_dates = pd.read_csv("dates.csv")
df_sales = pd.read_csv("sales.csv")

# Clean data
df_products.drop_duplicates(inplace=True)
df_products['Product_Name'] =
df_products['Product_Name'].str.strip()
df_stores.drop_duplicates(inplace=True)
df_customers.drop_duplicates(inplace=True)
df_dates.drop_duplicates(inplace=True)
df_sales.drop_duplicates(inplace=True)

# Calculate Total_Amount in sales

product_prices = df_products.set_index('Product_ID')['Price']
df_sales['Total_Amount'] = df_sales.apply(
lambda row: row['Quantity_Sold'] *
product_prices.get(row['Product_ID'], 0),
axis=1
)

# Load into SQLite, replacing old data

df_products.to_sql('DimProduct', conn, if_exists='replace',
index=False)
df_stores.to_sql('DimStore', conn, if_exists='replace',
index=False)
df_customers.to_sql('DimCustomer', conn, if_exists='replace',
index=False)
df_dates.to_sql('DimDate', conn, if_exists='replace', index=False)
df_sales.to_sql('FactSales', conn, if_exists='replace',
index=False)

print("ETL completed and data loaded.")

# --- Step 4: Main ---

def main():
create_sample_csvs()

conn = sqlite3.connect("retail_warehouse.db")

create_star_schema(conn)

etl_load_from_csv(conn)

# Show some sample data from FactSales

df = pd.read_sql_query("SELECT * FROM FactSales LIMIT 5;", conn)
print("\nSample data from FactSales:")
print(df)

conn.close()

if __name__ == "__main__":
main()
OUTPUT

Sample CSV files created.

Star schema tables created.
ETL completed and data loaded.

Sample data from FactSales:

Sale_ID Date_ID Product_ID Store_ID Customer_ID Quantity_Sold
\
0 1 1 101 201 301 1
1 2 2 102 202 302 0
2 3 3 103 203 303 1

Total_Amount
0 1200.0
1 0.0
2 850.0

Lesson Plan - CCS341 - DW-C
100% (1)
Lesson Plan - CCS341 - DW-C
5 pages
Furniture Store SQL Project Documentation
No ratings yet
Furniture Store SQL Project Documentation
12 pages
Computer Science Project Investment Management
No ratings yet
Computer Science Project Investment Management
4 pages
Expt 2 - 2-1
No ratings yet
Expt 2 - 2-1
31 pages
DBMS Assignment Retailer
No ratings yet
DBMS Assignment Retailer
19 pages
Jiya Meena Final IP Project-1 - 250628 - 200559
No ratings yet
Jiya Meena Final IP Project-1 - 250628 - 200559
85 pages
Module 4 SQL Project
No ratings yet
Module 4 SQL Project
5 pages
Dee Lab Manual1 2024
No ratings yet
Dee Lab Manual1 2024
40 pages
Project Computer Science
No ratings yet
Project Computer Science
24 pages
CCS341 DW QP 28.04.25
No ratings yet
CCS341 DW QP 28.04.25
4 pages
Yusuf PJ Coding 002
No ratings yet
Yusuf PJ Coding 002
11 pages
Data Warehouse Design & Implementation
No ratings yet
Data Warehouse Design & Implementation
27 pages
DMDW Fielding Set
No ratings yet
DMDW Fielding Set
11 pages
Multidimensional Data Warehouse Schemas
No ratings yet
Multidimensional Data Warehouse Schemas
4 pages
SQL Project - Exploring Trends, Segmentation & KPIs
No ratings yet
SQL Project - Exploring Trends, Segmentation & KPIs
43 pages
DBMSBCOM
No ratings yet
DBMSBCOM
24 pages
Python Project
100% (1)
Python Project
15 pages
Shop Management
No ratings yet
Shop Management
68 pages
Bcomdbmsrecord
No ratings yet
Bcomdbmsrecord
24 pages
Pyspark SQL Practice Questions No Window
No ratings yet
Pyspark SQL Practice Questions No Window
2 pages
What Is A Data Warehouse
No ratings yet
What Is A Data Warehouse
11 pages
Data Warehousing Quiz
75% (4)
Data Warehousing Quiz
5 pages
BI - Analytics - Question 4
No ratings yet
BI - Analytics - Question 4
4 pages
Scripts
No ratings yet
Scripts
9 pages
Tausif and Stanzin Practical
No ratings yet
Tausif and Stanzin Practical
32 pages
Retailer Database
No ratings yet
Retailer Database
15 pages
Data Model Schemas
No ratings yet
Data Model Schemas
5 pages
April Assignment
No ratings yet
April Assignment
7 pages
SQL Interview Question
No ratings yet
SQL Interview Question
4 pages
DWDM
No ratings yet
DWDM
81 pages
Create A Table Students With Columns Student
No ratings yet
Create A Table Students With Columns Student
29 pages
Informatica Kickoff Jan
No ratings yet
Informatica Kickoff Jan
6 pages
Sales Analysis Using Python and SQL
No ratings yet
Sales Analysis Using Python and SQL
15 pages
Fastion Store Final
No ratings yet
Fastion Store Final
27 pages
Tables For Assignment 2
No ratings yet
Tables For Assignment 2
3 pages
Online Fruit Shop Management System
No ratings yet
Online Fruit Shop Management System
19 pages
OEL01
No ratings yet
OEL01
8 pages
Data Warehouse Management Systems
No ratings yet
Data Warehouse Management Systems
56 pages
Import Pandas As PD
No ratings yet
Import Pandas As PD
7 pages
Olap-Operations in R
No ratings yet
Olap-Operations in R
18 pages
Amey B-50 DWM Lab Experiment-2
No ratings yet
Amey B-50 DWM Lab Experiment-2
19 pages
DWH Detailedproject
No ratings yet
DWH Detailedproject
17 pages
Bakery Management
No ratings yet
Bakery Management
4 pages
Tables
No ratings yet
Tables
27 pages
Module 5 - Dimensional Modeling
No ratings yet
Module 5 - Dimensional Modeling
4 pages
OLAP Insights for Business Students
No ratings yet
OLAP Insights for Business Students
3 pages
Books Table
No ratings yet
Books Table
4 pages
Sweet Shop Management Without Ui Codes
No ratings yet
Sweet Shop Management Without Ui Codes
6 pages
Item Module
No ratings yet
Item Module
18 pages
Ass 3
No ratings yet
Ass 3
14 pages
Customer Details Display Function
No ratings yet
Customer Details Display Function
1 page
CCS341-Data Warehousing
No ratings yet
CCS341-Data Warehousing
7 pages
Advanced SQL Assignment With Tables
No ratings yet
Advanced SQL Assignment With Tables
5 pages
DW Concepts
No ratings yet
DW Concepts
7 pages
Blink Basket
No ratings yet
Blink Basket
8 pages
Datawarehouse
No ratings yet
Datawarehouse
5 pages
Sales Management Project Report
No ratings yet
Sales Management Project Report
18 pages
SQL Assignment 4
100% (1)
SQL Assignment 4
3 pages
Python Code For Shop Management-WPS Office
No ratings yet
Python Code For Shop Management-WPS Office
14 pages
DBMS Project
No ratings yet
DBMS Project
4 pages
Student Store Management Project
No ratings yet
Student Store Management Project
25 pages
L02-Data Warehouse Components
No ratings yet
L02-Data Warehouse Components
28 pages
9 Step To Design Data Warehouse
No ratings yet
9 Step To Design Data Warehouse
24 pages
Amey B-50 DWM Lab Experiment-1
No ratings yet
Amey B-50 DWM Lab Experiment-1
12 pages
Datawarehousing HandsOn
No ratings yet
Datawarehousing HandsOn
6 pages
Scripts
No ratings yet
Scripts
20 pages
SQL Database Setup Guide
No ratings yet
SQL Database Setup Guide
15 pages
Import All Database With Table
No ratings yet
Import All Database With Table
2 pages
DWM Exp2
No ratings yet
DWM Exp2
5 pages
Dimensional Modeling: E-BIZ Practice Tata Consultancy Services, India
No ratings yet
Dimensional Modeling: E-BIZ Practice Tata Consultancy Services, India
35 pages
Star and Snowflake Schema Implementation
No ratings yet
Star and Snowflake Schema Implementation
6 pages
Data Warehousing Course Guide
No ratings yet
Data Warehousing Course Guide
2 pages
Bahria University: Assignment # 6
No ratings yet
Bahria University: Assignment # 6
3 pages
DWM Exp 2 C49
No ratings yet
DWM Exp 2 C49
17 pages
Business Intelligence
No ratings yet
Business Intelligence
4 pages
Ais Prof 1 Chapter 5
No ratings yet
Ais Prof 1 Chapter 5
39 pages
DWM Unit-Ii Notes
No ratings yet
DWM Unit-Ii Notes
27 pages
Run All These Below Scripts On Your Oracle Schema So That You Can Use This Data For All Your Lab Exercises
No ratings yet
Run All These Below Scripts On Your Oracle Schema So That You Can Use This Data For All Your Lab Exercises
4 pages
SIC Watsonxchallenge2024 Teams
No ratings yet
SIC Watsonxchallenge2024 Teams
49 pages
Etl Concepts in Data Warehousing PDF
No ratings yet
Etl Concepts in Data Warehousing PDF
2 pages
Data Warehousing With SQL Server 2012 (Core)
No ratings yet
Data Warehousing With SQL Server 2012 (Core)
8 pages
Data Warehouse Fact Tables Guide
No ratings yet
Data Warehouse Fact Tables Guide
3 pages
DW Set B
No ratings yet
DW Set B
2 pages
DWH-BI Engineer - Assessment Questionaire
No ratings yet
DWH-BI Engineer - Assessment Questionaire
4 pages
Project Report On Sales Data Mart
No ratings yet
Project Report On Sales Data Mart
1 page
Informatica Interview Question and Answers
No ratings yet
Informatica Interview Question and Answers
4 pages

DWM Lab1

Uploaded by

DWM Lab1

Uploaded by

Subject – Data Warehouse and Mining Lab

# --- Step 1: Create sample CSV files ---

# Write CSV contents to files

print("Sample CSV files created.")

# --- Step 2: Create Star Schema tables ---

# --- Step 3: ETL process ---

# Calculate Total_Amount in sales

# Load into SQLite, replacing old data

print("ETL completed and data loaded.")

# --- Step 4: Main ---

# Show some sample data from FactSales

Sample CSV files created.

Sample data from FactSales:

You might also like