0% found this document useful (0 votes)

15 views7 pages

Ifm Group2 Code

The document outlines a data analysis process using Python, focusing on time series stationarity, differencing, and normalization of financial data from an Excel file. It includes steps for checking stationarity, performing OLS regression, conducting Johansen cointegration tests, and running Granger causality tests. The results, including descriptive statistics and visualizations, are saved back to the Excel file for further analysis.

Uploaded by

Charansai Kumar7733

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views7 pages

Ifm Group2 Code

Uploaded by

Charansai Kumar7733

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 7

import pandas as pd

import numpy as np
import statsmodels.api as sm
from statsmodels.tsa.stattools import adfuller, coint, grangercausalitytests
from scipy.stats import shapiro
import pandas as pd

# Load the Excel file

file_path = "/content/Stationarized_IFM_data_v2.xlsx" # Update this if needed
df = pd.read_excel(file_path)

# Display column names

print("Columns in the dataset:", df.columns)

import pandas as pd
import numpy as np
from statsmodels.tsa.stattools import adfuller

# Load the dataset

file_path = "/content/Stationarized_IFM_data_v2.xlsx"
df = pd.read_excel(file_path)

# Function to check stationarity

def check_stationarity(series, significance=0.05):
# Check if the series is empty or only contains NaNs after dropna()
if series.dropna().empty:
return True # Consider an empty series as stationary to avoid the error
result = adfuller(series.dropna())
return result[1] < significance # Returns True if stationary

# Apply differencing iteratively until all attributes become stationary

stationary_df = df.copy()
columns_to_check = stationary_df.columns[1:] # Exclude 'Group' column

for col in columns_to_check:

diff_count = 0
while not check_stationarity(stationary_df[col]):
stationary_df[col] = stationary_df[col].diff().dropna()
diff_count += 1
if diff_count > 5: # Prevent infinite loops
print(f"{col} is not stationary even after 5 differences.")
break
print(f"{col} became stationary after {diff_count} differencing(s).")
# Save the stationary dataset
stationary_file_path = "/content/Stationarized_IFM_data_v2.xlsx"
stationary_df.to_excel(stationary_file_path, index=False)
print(f"Stationary dataset saved at {stationary_file_path}")
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.tsa.stattools import adfuller

# Load data
file_path = "/content/Stationarized_IFM_data_v2.xlsx"
df = pd.read_excel(file_path)

# List of columns to check for stationarity

columns = ['Index', 'ILSSPOT', 'ILSFORWARDS', 'INRSPOT', 'INRFORWARDS', 'EGPSPOT',
'EGPFORWARDS', 'IQDSPOT', 'IQDFORWARDS', 'JODSPOT', 'JODFORWARDS',
'Unnamed: 11', 'how to retrive data']

# Dictionary to store differencing counts

diff_counts = {col: 0 for col in columns}

# Function to check stationarity using ADF test

def is_stationary(series, significance=0.05):
# Check if the series is empty or only contains NaNs after dropna()
if series.dropna().empty:
return True # Consider an empty series as stationary to avoid the error
result = adfuller(series.dropna(), autolag='AIC')
return result[1] < significance

# Create a copy of the original dataframe for plotting

df_original = df.copy()

# Apply differencing iteratively until stationarity is achieved

for col in columns:
temp_series = df[col].copy()
while not is_stationary(temp_series) and not temp_series.dropna().empty: #check
if series is empty after dropna()
temp_series = temp_series.diff().dropna()
diff_counts[col] += 1
df[col] = temp_series # Store transformed data

# Save the stationary dataset

output_path = "/content/Stationarized_IFM_data_v2.xlsx"
df.to_excel(output_path, index=False)

# Plot original vs stationary data

fig, axes = plt.subplots(nrows=len(columns), ncols=2, figsize=(12, 18))
fig.suptitle("Original vs Stationary Time Series", fontsize=14)

for i, col in enumerate(columns):

# Align the original and stationary series properly
original_series = df_original[col].dropna()
stationary_series = df[col].dropna()

axes[i, 0].plot(original_series.index, original_series, label="Original")

axes[i, 0].set_title(f"Original {col}")

axes[i, 1].plot(stationary_series.index, stationary_series, label="Stationary",

color="red")
axes[i, 1].set_title(f"Stationary {col} after {diff_counts[col]}
differencing(s)")

plt.tight_layout(rect=[0, 0, 1, 0.97])
plt.show()

import pandas as pd

# Load the stationary dataset

file_path = "/content/Stationarized_IFM_data_v2.xlsx"
df = pd.read_excel(file_path)
# Generate descriptive statistics
descriptive_stats = df.describe()

# Save the descriptive statistics to an Excel file

output_path = "/content/Stationarized_IFM_data_v2.xlsx"
descriptive_stats.to_excel(output_path)

# Display the statistics

print(descriptive_stats)

print(f"\n✅ Descriptive statistics saved at {output_path}")

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm

# Load dataset
file_path = "/content/Stationarized_IFM_data_v2.xlsx"
df = pd.read_excel(file_path)

# Handling missing & infinite values

# Replace Inf values with NaN, but fill NaNs with 0 to avoid dropping all rows
df.replace([np.inf, -np.inf], np.nan, inplace=True)
df.fillna(0, inplace=True) # Fill NaN values with 0

variable_pairs = [
("ILSFORWARDS", "ILSSPOT"),
("ILSFORWARDS", "INRSPOT"),
("ILSFORWARDS", "IQDSPOT"),
("ILSFORWARDS", "JODSPOT"),
("ILSFORWARDS", "EGPSPOT")
]

# Perform OLS regression and visualize results

for x_var, y_var in variable_pairs:
plt.figure(figsize=(8, 5))

# Scatter plot with regression line

sns.regplot(x=df[x_var], y=df[y_var], ci=None, line_kws={"color": "red"},
scatter_kws={"alpha": 0.5})

# Fit OLS model

X = sm.add_constant(df[x_var]) # Add constant for intercept
model = sm.OLS(df[y_var], X).fit()

# Print regression summary

print(f"\n📌 OLS Regression Results for {x_var} vs {y_var}")
print(model.summary())

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from statsmodels.tsa.vector_ar.vecm import coint_johansen
# Load the dataset
file_path = "/content/Stationarized_IFM_data_v2.xlsx"
df = pd.read_excel(file_path)

# Handle missing values: Forward fill and backward fill

df.fillna(method='ffill', inplace=True) # Fill forward
df.fillna(method='bfill', inplace=True) # Fill backward

# Drop irrelevant columns if present

if 'Unnamed: 11' in df.columns or 'how to retrive data' in df.columns:
df = df.drop(columns=['Unnamed: 11', 'how to retrive data'])

# Select numeric columns only

numeric_df = df.select_dtypes(include=np.number)

# Exclude 'Index' column if present

if 'Index' in numeric_df.columns:
numeric_df = numeric_df.drop(columns=['Index'])

# Check if numeric_df has sufficient variables and observations

# Check if numeric_df has sufficient variables and observations
if len(numeric_df.columns) < 2:
raise ValueError("Not enough numeric variables for cointegration test! "
f"You have {len(numeric_df.columns)} variables; at least 2 are
required.")

# Ensure that you have more observations than variables for the test.
# If not, reduce the number of variables or increase the observations.
if numeric_df.shape[0] <= len(numeric_df.columns):
print("Reducing the number of variables to match the number of observations.")
# Select a subset of variables to use in the test.
# You may need to choose variables based on domain knowledge.
# For this example, selecting the first n-1 variables where n is the number of
observations.
selected_vars = numeric_df.columns[:numeric_df.shape[0] - 1]
numeric_df = numeric_df[selected_vars]
print(f"Selected variables: {selected_vars}")

# Recheck conditions for Johansen test

num_vars = len(numeric_df.columns)
num_obs = numeric_df.shape[0]

if num_vars < 2 or num_obs <= num_vars:

raise ValueError(f"Not enough data for cointegration test! You have {num_vars}
variables "
f"and {num_obs} observations. Adjust your data.")

# Visualize the correlation matrix

plt.figure(figsize=(10, 6))
sns.heatmap(numeric_df.corr(), annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Correlation Matrix")
plt.show()

def johansen_test(data, k_ar_diff=2):

# Convert to NumPy array
data_array = data.to_numpy()

# Check shape of the data

print("Data shape:", data_array.shape)
if data_array.shape[0] <= data_array.shape[1]:
raise ValueError("Not enough observations for the Johansen test! Ensure
rows > columns.")

# Run Johansen test

result = coint_johansen(data_array, det_order=0, k_ar_diff=k_ar_diff)

# Print results
print("\n💡 Johansen Cointegration Test Results:")
for i in range(len(result.lr1)):
trace_stat = result.lr1[i]
crit_value = result.cvt[i, 1] # 5% critical value

if trace_stat > crit_value:

print(f"✅ Cointegration found at rank {i+1}: Trace Statistic =
{trace_stat:.4f}, Critical Value (5%) = {crit_value:.4f}")
else:
print(f"❌ No cointegration at rank {i+1}: Trace Statistic =
{trace_stat:.4f}, Critical Value (5%) = {crit_value:.4f}")

import numpy as np
import scipy.stats as stats
from sklearn.preprocessing import QuantileTransformer

# Function for Shapiro-Wilk test

def shapiro_test(series):
# Check if the series is numeric
if pd.api.types.is_numeric_dtype(series):
p_value = stats.shapiro(series)[1]
return p_value
else:
return np.nan # Return NaN for non-numeric series

# Changed "ISLFORWARDS" to "ILSFORWARDS"

# Apply Rank-Based Inverse Normal Transformation to ILSFORWARDS, if not normal
if shapiro_test(df["ILSFORWARDS"]) < 0.05:
qt = QuantileTransformer(output_distribution="normal", random_state=42)
df["ILSFORWARDS"] = qt.fit_transform(df[["ILSFORWARDS"]])
if shapiro_test(df["INRFORWARDS"]) < 0.05:
qt = QuantileTransformer(output_distribution="normal", random_state=42)
df["INRFORWARDS"] = qt.fit_transform(df[["INRFORWARDS"]])
if shapiro_test(df["EGPFORWARDS"]) < 0.05:
qt = QuantileTransformer(output_distribution="normal", random_state=42)
df["EGPFORWARDS"] = qt.fit_transform(df[["EGPFORWARDS"]])
if shapiro_test(df["IQDFORWARDS"]) < 0.05:
qt = QuantileTransformer(output_distribution="normal", random_state=42)
df["IQDFORWARDS"] = qt.fit_transform(df[["IQDFORWARDS"]])
if shapiro_test(df["JODFORWARDS"]) < 0.05:
qt = QuantileTransformer(output_distribution="normal", random_state=42)
df["JODFORWARDS"] = qt.fit_transform(df[["JODFORWARDS"]])
if shapiro_test(df["ILSSPOT"]) < 0.05:
qt = QuantileTransformer(output_distribution="normal", random_state=42)
df["ILSSPOT"] = qt.fit_transform(df[["ILSSPOT"]])
if shapiro_test(df["INRSPOT"]) < 0.05:
qt = QuantileTransformer(output_distribution="normal", random_state=42)
df["INRSPOT"] = qt.fit_transform(df[["INRSPOT"]])
if shapiro_test(df["EGPSPOT"]) < 0.05:
qt = QuantileTransformer(output_distribution="normal", random_state=42)
df["EGPSPOT"] = qt.fit_transform(df[["EGPSPOT"]])
if shapiro_test(df["IQDSPOT"]) < 0.05:
qt = QuantileTransformer(output_distribution="normal", random_state=42)
df["IQDSPOT"] = qt.fit_transform(df[["IQDSPOT"]])
if shapiro_test(df["JODSPOT"]) < 0.05:
qt = QuantileTransformer(output_distribution="normal", random_state=42)
df["JODSPOT"] = qt.fit_transform(df[["JODSPOT"]])
# Recheck normality, but only for numeric columns
numeric_columns = df.select_dtypes(include=np.number).columns
shapiro_results = {col: shapiro_test(df[col]) for col in numeric_columns}

# Save the final normalized dataset

output_path = "/content/Stationarized_IFM_data_v2.xlsx"
df.to_excel(output_path, index=False)

# Print results
print("✅ Final Normality Check After Fixing ISLFORWARDS:")
for col, p_value in shapiro_results.items():
if not np.isnan(p_value): # Skip non-numeric columns
status = "✅ Normally distributed" if p_value > 0.05 else "❌ NOT normally
distributed"
print(f"{col}: p = {p_value:.5f} → {status}")

print(f"📂 Fully normalized dataset saved at {output_path}")

import pandas as pd
import numpy as np
from statsmodels.tsa.stattools import grangercausalitytests

# Load the stationary dataset

file_path = "/content/Stationarized_IFM_data_v2.xlsx"
df = pd.read_excel(file_path, index_col=0) # Assuming the first column is
DATE/GROUP

# Drop any remaining NaN values after differencing

df.dropna(inplace=True)

# Define max lags for the test

max_lag = max(1, min(4, int((df.shape[0] - 1) / 3))) # Ensure it's at least 1

# Function to perform Granger Causality Test between all variables

def granger_causality_matrix(data, max_lag, test='ssr_chi2test'):
"""
Returns a DataFrame with p-values of the Granger Causality test.
Each cell (row, column) indicates if the column variable Granger-causes the row
variable.
"""
numeric_data = data.select_dtypes(include=[np.number])
variables = numeric_data.columns # Get column names

# Create an empty matrix to store p-values

result_matrix = pd.DataFrame(np.zeros((len(variables), len(variables))),
columns=variables, index=variables)

for col_y in variables: # Dependent variable (y)

for col_x in variables: # Independent variable (x)
if col_x != col_y:
try:
# Check data size
if numeric_data[[col_y, col_x]].shape[0] <= max_lag:
raise ValueError(f"Not enough rows for max_lag={max_lag}
between {col_y} and {col_x}.")

# Check for constant data

if numeric_data[[col_y, col_x]].var().min() == 0:
raise ValueError(f"One or both columns ({col_y}, {col_x})
have zero variance.")

# Perform Granger causality test

test_result = grangercausalitytests(numeric_data[[col_y,
col_x]], maxlag=max_lag, verbose=False)
p_value = test_result[max_lag][0][test][1] # Extract p-value
result_matrix.loc[col_y, col_x] = p_value

except Exception as e:
print(f"Error testing causality between {col_y} and {col_x}:
{e}")
result_matrix.loc[col_y, col_x] = np.nan # Assign NaN if test
fails

return result_matrix

# Run Granger Causality test

granger_results = granger_causality_matrix(df, max_lag)

# Save results to an Excel file

output_path = "/content/Stationarized_IFM_data_v2.xlsx"
granger_results.to_excel(output_path)

print("\n✅ Granger Causality Test completed! Results saved at:", output_path)

import pandas as pd
results = pd.read_excel("/content/Stationarized_IFM_data_v2.xlsx", index_col=0)
print(results)

Forex Data Analysis for Analysts
No ratings yet
Forex Data Analysis for Analysts
29 pages
Time Series Analysis
No ratings yet
Time Series Analysis
5 pages
Time Series Analysis of HDFCBANK Stock by Pavan
No ratings yet
Time Series Analysis of HDFCBANK Stock by Pavan
10 pages
Fda E0323040 20 12 24
No ratings yet
Fda E0323040 20 12 24
4 pages
Data - Analytics Lab - Manual JNTUH R22 Regulation
No ratings yet
Data - Analytics Lab - Manual JNTUH R22 Regulation
26 pages
Data Analysis & Simulation Code
No ratings yet
Data Analysis & Simulation Code
9 pages
Machine Exercise 3
No ratings yet
Machine Exercise 3
22 pages
DA Programs
No ratings yet
DA Programs
44 pages
Implementing K-Means Clustering: '/content/mall - Customers (1) .CSV'
No ratings yet
Implementing K-Means Clustering: '/content/mall - Customers (1) .CSV'
8 pages
Edp 3
No ratings yet
Edp 3
16 pages
DA Lab
No ratings yet
DA Lab
27 pages
TIME - ChatGPT Manual 001
No ratings yet
TIME - ChatGPT Manual 001
7 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
TS Final
No ratings yet
TS Final
13 pages
Program
No ratings yet
Program
10 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
Machine Learning Project Roadmap
No ratings yet
Machine Learning Project Roadmap
4 pages
Data Analytics Lab Manual - 250402 - 095326
No ratings yet
Data Analytics Lab Manual - 250402 - 095326
58 pages
Da Program Upto 6
No ratings yet
Da Program Upto 6
20 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
Time Series Analysis 1718649022
No ratings yet
Time Series Analysis 1718649022
5 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Time - Series - Forecasting Using Teleco Telecom Revenue
No ratings yet
Time - Series - Forecasting Using Teleco Telecom Revenue
27 pages
Assignment 3 Teleco Telecom Revenue - Copy1
No ratings yet
Assignment 3 Teleco Telecom Revenue - Copy1
33 pages
ADS EXP Assignments
No ratings yet
ADS EXP Assignments
38 pages
Ibd Manual
No ratings yet
Ibd Manual
12 pages
Data Visualization & Preprocessing Guide
No ratings yet
Data Visualization & Preprocessing Guide
18 pages
R Code
No ratings yet
R Code
3 pages
Practical Possible Questions Revised
No ratings yet
Practical Possible Questions Revised
12 pages
Da Rec
No ratings yet
Da Rec
29 pages
Data Science Lab Manual
No ratings yet
Data Science Lab Manual
32 pages
Hariks
No ratings yet
Hariks
5 pages
Coca Cola Start
No ratings yet
Coca Cola Start
1 page
Data Analyzer
No ratings yet
Data Analyzer
10 pages
Lab 5
No ratings yet
Lab 5
6 pages
Data Science Experiment Guide
100% (2)
Data Science Experiment Guide
43 pages
Bussiness Report PM
No ratings yet
Bussiness Report PM
44 pages
Python Lecture 6 TimeSeries3 GARCH
No ratings yet
Python Lecture 6 TimeSeries3 GARCH
22 pages
Exp 8 - LM
No ratings yet
Exp 8 - LM
10 pages
Group A Assignment No2 Writeup
No ratings yet
Group A Assignment No2 Writeup
9 pages
Data Warehousing and Data Mining
No ratings yet
Data Warehousing and Data Mining
24 pages
Micro
No ratings yet
Micro
4 pages
Moving Average Cross Strategy
No ratings yet
Moving Average Cross Strategy
1 page
Lab2 Day8 23BCSA84 AssignmentSolution
No ratings yet
Lab2 Day8 23BCSA84 AssignmentSolution
7 pages
FRA Milestone1 - Maminulislam
100% (4)
FRA Milestone1 - Maminulislam
23 pages
Code Shabab Error 7
No ratings yet
Code Shabab Error 7
5 pages
External
No ratings yet
External
11 pages
Data Science Fundamentals
No ratings yet
Data Science Fundamentals
22 pages
Data Analysis & Visualization
No ratings yet
Data Analysis & Visualization
26 pages
Data Science and Analtics Laboratory
No ratings yet
Data Science and Analtics Laboratory
21 pages
Data Analysis and Visualization Guide
No ratings yet
Data Analysis and Visualization Guide
16 pages
Write A Python Program To Explain How Can You Handle Missing Values Using Simpleimputer.
No ratings yet
Write A Python Program To Explain How Can You Handle Missing Values Using Simpleimputer.
9 pages
Data Mining Lab: Regression & Clustering
No ratings yet
Data Mining Lab: Regression & Clustering
36 pages
Data Analysis
No ratings yet
Data Analysis
22 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Handle Missing Data in Real-Time
No ratings yet
Handle Missing Data in Real-Time
5 pages
Python For Machine Learning
No ratings yet
Python For Machine Learning
66 pages
DS Problem Statements and Codes
No ratings yet
DS Problem Statements and Codes
21 pages
Time Series Analysis BRT Delhi
No ratings yet
Time Series Analysis BRT Delhi
81 pages
Organisational Design Guide
No ratings yet
Organisational Design Guide
75 pages
Stochastic Processes for Economists
No ratings yet
Stochastic Processes for Economists
22 pages
EmmanuelBegahWage ProductivityNexus
No ratings yet
EmmanuelBegahWage ProductivityNexus
28 pages
ARIMA Time Series Guide
No ratings yet
ARIMA Time Series Guide
53 pages
Unit Root Test and Applications
No ratings yet
Unit Root Test and Applications
11 pages
PG 1
No ratings yet
PG 1
38 pages
Econometrics For Finance Course Outline
100% (1)
Econometrics For Finance Course Outline
4 pages
Optimal HVAC Control with DRL
No ratings yet
Optimal HVAC Control with DRL
16 pages
Impact of Fdi
No ratings yet
Impact of Fdi
41 pages
Systematically Trading FX Mean Reversion in The Long Run 1680234492
No ratings yet
Systematically Trading FX Mean Reversion in The Long Run 1680234492
32 pages
Cointegration Analysis of Selected Currency Pairs Traded in Indian Foreign Exchange Market
No ratings yet
Cointegration Analysis of Selected Currency Pairs Traded in Indian Foreign Exchange Market
10 pages
RPLA QB 5 Units With Img
No ratings yet
RPLA QB 5 Units With Img
40 pages
Univariate Time Series Analysis Guide
No ratings yet
Univariate Time Series Analysis Guide
7 pages
20th Century Wine Sales Forecasting
No ratings yet
20th Century Wine Sales Forecasting
65 pages
Adaptive Signal Processing Bernard Widrow, Peter N. Stearns
No ratings yet
Adaptive Signal Processing Bernard Widrow, Peter N. Stearns
14 pages
The Trend and Pattern of Natural Rubber Price in India
No ratings yet
The Trend and Pattern of Natural Rubber Price in India
11 pages
Applied Time Series Analysis
No ratings yet
Applied Time Series Analysis
200 pages
Signal Analysis: Signal Analysis: Wavelets, Filter Banks, Time-Frequency Transforms and Applications. Alfred Mertins
100% (1)
Signal Analysis: Signal Analysis: Wavelets, Filter Banks, Time-Frequency Transforms and Applications. Alfred Mertins
17 pages
Why Machine Learning Funds Fail
100% (1)
Why Machine Learning Funds Fail
45 pages
BAMS (Business Analytics)
No ratings yet
BAMS (Business Analytics)
11 pages
PTSP Notes Unit 3 PDF
No ratings yet
PTSP Notes Unit 3 PDF
11 pages
Advanced Forecasting Techniques
No ratings yet
Advanced Forecasting Techniques
26 pages
Assignment No. 02 Introduction To Educational Statistics (8614)
No ratings yet
Assignment No. 02 Introduction To Educational Statistics (8614)
19 pages
Unit Roots and Non-Stationary Time Series: 5 November 2021 Dr. Maurice J. Roche, Department of Economics Topic I: 1
No ratings yet
Unit Roots and Non-Stationary Time Series: 5 November 2021 Dr. Maurice J. Roche, Department of Economics Topic I: 1
36 pages
Beale Et Al 2010 Regression Analysis of Spatial Data
No ratings yet
Beale Et Al 2010 Regression Analysis of Spatial Data
19 pages
Consequences For Option Pricing of A Long Memory in Volatility
No ratings yet
Consequences For Option Pricing of A Long Memory in Volatility
56 pages
Random Signals and Noise
100% (1)
Random Signals and Noise
82 pages
EC505 Course Overview
No ratings yet
EC505 Course Overview
5 pages
02 Archaeology of Household
No ratings yet
02 Archaeology of Household
17 pages

Ifm Group2 Code

Uploaded by

Ifm Group2 Code

Uploaded by

import pandas as pd

# Load the Excel file

# Display column names

# Load the dataset

# Function to check stationarity

# Apply differencing iteratively until all attributes become stationary

for col in columns_to_check:

# List of columns to check for stationarity

# Dictionary to store differencing counts

# Function to check stationarity using ADF test

# Create a copy of the original dataframe for plotting

# Apply differencing iteratively until stationarity is achieved

# Save the stationary dataset

# Plot original vs stationary data

for i, col in enumerate(columns):

axes[i, 0].plot(original_series.index, original_series, label="Original")

axes[i, 1].plot(stationary_series.index, stationary_series, label="Stationary",

# Load the stationary dataset

# Save the descriptive statistics to an Excel file

# Display the statistics

print(f"\n✅ Descriptive statistics saved at {output_path}")

# Handling missing & infinite values

# Perform OLS regression and visualize results

# Scatter plot with regression line

# Fit OLS model

# Print regression summary

# Handle missing values: Forward fill and backward fill

# Drop irrelevant columns if present

# Select numeric columns only

# Exclude 'Index' column if present

# Check if numeric_df has sufficient variables and observations

# Recheck conditions for Johansen test

if num_vars < 2 or num_obs <= num_vars:

# Visualize the correlation matrix

def johansen_test(data, k_ar_diff=2):

# Check shape of the data

# Run Johansen test

if trace_stat > crit_value:

# Function for Shapiro-Wilk test

# Changed "ISLFORWARDS" to "ILSFORWARDS"

# Save the final normalized dataset

print(f"📂 Fully normalized dataset saved at {output_path}")

# Load the stationary dataset

# Drop any remaining NaN values after differencing

# Define max lags for the test

# Function to perform Granger Causality Test between all variables

# Create an empty matrix to store p-values

for col_y in variables: # Dependent variable (y)

# Check for constant data

# Perform Granger causality test

# Run Granger Causality test

# Save results to an Excel file

print("\n✅ Granger Causality Test completed! Results saved at:", output_path)

You might also like