scikitelearn-collections

Elegant, production-ready extensions for Scikit-learn pipelines
Save time, build faster, scale better 🚀

🔍 Overview

scikitelearn-collections is a curated collection of robust utilities, transformers, wrappers, and experiment tools built on top of the Scikit-learn ecosystem. It helps you streamline model development, experiment tracking, and pipeline customization — all with full Scikit-learn compatibility.

✨ Features

✅ Plug-and-play Pipeline and ColumnTransformer components
✅ Drop-in feature generators (dates, text, outliers, etc.)
✅ Advanced custom transformers and meta-estimators
✅ Support for nested cross-validation and custom scorers
✅ Compatible with GridSearchCV and RandomizedSearchCV
✅ Simple model evaluation wrappers with logging
✅ Utility functions for feature selection, data cleaning, and split strategies
✅ Modular design for experimentation & reproducibility
✅ Clean, tested, and production-grade Python code
✅ 100% compatible with Scikit-learn’s API & best practices

📦 Installation

Requirements

Python 3.8+
scikit-learn >= 1.0
numpy, pandas, joblib

Install via pip (PyPI release coming soon)

pip install scikitelearn-collections

Until then, you can clone manually:

git clone https://github.com/your-username/scikitelearn-collections.git
cd scikitelearn-collections
pip install -e .

🚀 Quick Start

from sklearn.pipeline import Pipeline
from scikitelearn_collections.transformers import DateFeatureGenerator, OutlierRemover
from sklearn.linear_model import LogisticRegression

pipeline = Pipeline([
    ("date_features", DateFeatureGenerator(columns=["signup_date"])),
    ("remove_outliers", OutlierRemover(method="zscore", threshold=3.0)),
    ("classifier", LogisticRegression())
])

pipeline.fit(X_train, y_train)

🧠 Modules & Components

Module	Description
`transformers/`	Custom transformers (dates, outliers, encodings, etc.)
`pipelines/`	Reusable ML pipelines with preprocessing and modeling
`wrappers/`	Model wrappers for enhanced evaluation, prediction, and logging
`validators/`	Custom cross-validation strategies and metric calculators
`utils/`	Helper utilities for splits, selection, diagnostics
`examples/`	Real-world usage examples in Jupyter notebooks

📁 Project Structure

scikitelearn-collections/
│
├── transformers/         # Custom transformers
├── pipelines/            # Ready-to-use ML pipelines
├── wrappers/             # Model and metric wrappers
├── utils/                # Helper functions and classes
├── validators/           # Scoring & validation strategies
├── examples/             # Example notebooks and scripts
├── tests/                # Unit tests
└── README.md             # You're here!

🧪 Examples

Explore the examples/ directory for practical Jupyter notebooks:

✅ Binary classification with preprocessing
✅ Regression with feature engineering
✅ Outlier detection & removal
✅ Cross-validation with custom scoring
✅ Hyperparameter tuning with pipeline integration

✅ Contributing

We ❤️ contributions! To contribute:

Fork this repository
Create a new branch: git checkout -b feature/your-feature
Write clean, tested code
Ensure all tests pass with pytest
Submit a pull request 🚀

🧪 Testing

All modules include unit tests in the tests/ directory. Run:

pytest

We use Black for code formatting and expect all code to follow PEP8 guidelines.

📄 License

This project is licensed under the MIT License.

🙌 Acknowledgements

Built with ❤️ using Scikit-learn
Inspired by real-world ML use-cases in research & production
Thanks to open-source contributors and community ideas

📬 Contact

Have questions or suggestions? Open an issue or start a discussion!

Let your pipelines be elegant, reusable, and powerful. — scikitelearn-collections

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

scikitelearn-collections

🔍 Overview

✨ Features

📦 Installation

Requirements

Install via pip (PyPI release coming soon)

🚀 Quick Start

🧠 Modules & Components

📁 Project Structure

🧪 Examples

✅ Contributing

🧪 Testing

📄 License

🙌 Acknowledgements

📬 Contact

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 73 Commits
A_Comprehensive_Comparative_Study_of_Unsupervised_Clustering_Algorithms_on_Synthetic_Multivariate_Data.ipynb		A_Comprehensive_Comparative_Study_of_Unsupervised_Clustering_Algorithms_on_Synthetic_Multivariate_Data.ipynb
Assessing_Statistical_Significance_of_Model_Performance_via_Permutation_Testing_An_End_to_End_Scikit_learn_Experiment.ipynb		Assessing_Statistical_Significance_of_Model_Performance_via_Permutation_Testing_An_End_to_End_Scikit_learn_Experiment.ipynb
AutoCLAIM_An_Automated_Classification_Learning_Architecture_for_Imbalanced_Modeling.ipynb		AutoCLAIM_An_Automated_Classification_Learning_Architecture_for_Imbalanced_Modeling.ipynb
AutoPrep_An_Automated_Exploratory_Data_Analysis_and_Preprocessing_Framework_for_Structured_Machine_Learning_Pipelines.ipynb		AutoPrep_An_Automated_Exploratory_Data_Analysis_and_Preprocessing_Framework_for_Structured_Machine_Learning_Pipelines.ipynb
Automated_Feature_Selection_Pipeline.ipynb		Automated_Feature_Selection_Pipeline.ipynb
Best_Practices_in_Hyperparameter_Optimization_An_End_to_End_Scikit_learn_Framework_with_Randomized_Search_and_Successive_Halving.ipynb		Best_Practices_in_Hyperparameter_Optimization_An_End_to_End_Scikit_learn_Framework_with_Randomized_Search_and_Successive_Halving.ipynb
Beyond_Exhaustive_Search_Comparative_Evaluation_of_Randomized,_Successive_Halving,_and_Bayesian_Strategies_for_Hyperparameter_Optimization_in_Scikit_learn.ipynb		Beyond_Exhaustive_Search_Comparative_Evaluation_of_Randomized,_Successive_Halving,_and_Bayesian_Strategies_for_Hyperparameter_Optimization_in_Scikit_learn.ipynb
ChronoLearn_A_Time_Aware_Framework_for_Sequential_Regression_with_Lag_Based_Feature_Engineering_and_Cross_Validated_Estimation.ipynb		ChronoLearn_A_Time_Aware_Framework_for_Sequential_Regression_with_Lag_Based_Feature_Engineering_and_Cross_Validated_Estimation.ipynb
Comparative_Analysis_of_Dimensionality_Reduction_Techniques_for_Visualizing_High_Dimensional_Data.ipynb		Comparative_Analysis_of_Dimensionality_Reduction_Techniques_for_Visualizing_High_Dimensional_Data.ipynb
Comparative_Evaluation_of_Cross_Validation_Iterators_in_Machine_Learning_An_End_to_End_Scikit_learn_Framework.ipynb		Comparative_Evaluation_of_Cross_Validation_Iterators_in_Machine_Learning_An_End_to_End_Scikit_learn_Framework.ipynb
Comprehensive_Cluster_Analysis_and_Visualization_of_High_Dimensional_Data_Using_Unsupervised_Learning_Techniques.ipynb		Comprehensive_Cluster_Analysis_and_Visualization_of_High_Dimensional_Data_Using_Unsupervised_Learning_Techniques.ipynb
CreditScore‑Pro_A_Transparent_and_Modular_Machine_Learning_Framework_for_Credit_Risk_Assessment.ipynb		CreditScore‑Pro_A_Transparent_and_Modular_Machine_Learning_Framework_for_Credit_Risk_Assessment.ipynb
Cross_Validation_as_a_Dual_Tool_for_Performance_Estimation_and_Model_Selection_An_End_to_End_Scikit_learn_Study.ipynb		Cross_Validation_as_a_Dual_Tool_for_Performance_Estimation_and_Model_Selection_An_End_to_End_Scikit_learn_Study.ipynb
CustomerCluster‑AI_An_Automated_Framework_for_Unsupervised_Segmentation_via_Dimensionality_Reduction_and_Cluster_Validation.ipynb		CustomerCluster‑AI_An_Automated_Framework_for_Unsupervised_Segmentation_via_Dimensionality_Reduction_and_Cluster_Validation.ipynb
Dimensionality_Reduction_with_PCA_From_High_D_to_Key_Structure.ipynb		Dimensionality_Reduction_with_PCA_From_High_D_to_Key_Structure.ipynb
End_to_End_ML_Project_(Scikit_learn_with_Cross_Validation).ipynb		End_to_End_ML_Project_(Scikit_learn_with_Cross_Validation).ipynb
Establishing_Baseline_Paradigms_A_Comparative_Empirical_Study_of_Dummy_Estimators_and_Learned_Models_in_Classification_and_Regression.ipynb		Establishing_Baseline_Paradigms_A_Comparative_Empirical_Study_of_Dummy_Estimators_and_Learned_Models_in_Classification_and_Regression.ipynb
Exhaustive_Grid_Search_for_Hyperparameter_Optimization_A_Rigorous_Cross_Validation_Framework_with_Scikit_learn.ipynb		Exhaustive_Grid_Search_for_Hyperparameter_Optimization_A_Rigorous_Cross_Validation_Framework_with_Scikit_learn.ipynb
Expanding_Sample_Complexity_Learning_Curves_as_an_Empirical_Framework_for_Assessing_Model_Generalization,_Data_Efficiency,_and_Bias–Variance_Trade_offs.ipynb		Expanding_Sample_Complexity_Learning_Curves_as_an_Empirical_Framework_for_Assessing_Model_Generalization,_Data_Efficiency,_and_Bias–Variance_Trade_offs.ipynb
Fairness_Aware_Machine_Learning_Auditing_and_Mitigating_Bias_in_Predictive_Models_Using_AIF360_and_scikit_learn_Pipelines.ipynb		Fairness_Aware_Machine_Learning_Auditing_and_Mitigating_Bias_in_Predictive_Models_Using_AIF360_and_scikit_learn_Pipelines.ipynb
Formalizing_Evaluation_Paradigms_A_Unified_Framework_of_Metric_Driven_Model_Assessment_via_Scikit_learn’s_Scoring_Parameter.ipynb		Formalizing_Evaluation_Paradigms_A_Unified_Framework_of_Metric_Driven_Model_Assessment_via_Scikit_learn’s_Scoring_Parameter.ipynb
Hierarchical_Evaluation_of_Multilabel_Learning_A_Metric_Driven_Empirical_Study_of_Ranking_Based_Performance_Paradigms.ipynb		Hierarchical_Evaluation_of_Multilabel_Learning_A_Metric_Driven_Empirical_Study_of_Ranking_Based_Performance_Paradigms.ipynb
Holistic_Paradigms_of_Classification_Model_Assessment_An_Integrative_Empirical_Framework_of_Metrics,_Visual_Analytics,_and_Cross_Validation_via_Scikit_Learn.ipynb		Holistic_Paradigms_of_Classification_Model_Assessment_An_Integrative_Empirical_Framework_of_Metrics,_Visual_Analytics,_and_Cross_Validation_via_Scikit_Learn.ipynb
MetaTransformer_Zoo_A_Modular_Framework_for_Feature_Engineering_with_Custom_Pipeline_Components_in_Structured_Data_Modeling.ipynb		MetaTransformer_Zoo_A_Modular_Framework_for_Feature_Engineering_with_Custom_Pipeline_Components_in_Structured_Data_Modeling.ipynb
Multifaceted_Dimensionality_Reduction_and_Visualization_of_High_Dimensional_Data_A_Comparative_Study_Using_PCA,_ICA,_SVD,_t_SNE,_and_Random_Projections.ipynb		Multifaceted_Dimensionality_Reduction_and_Visualization_of_High_Dimensional_Data_A_Comparative_Study_Using_PCA,_ICA,_SVD,_t_SNE,_and_Random_Projections.ipynb
Multiview_Exploratory_Analysis_and_Visualization_of_High_Dimensional_Data_via_Linear_and_Nonlinear_Projection_Techniques.ipynb		Multiview_Exploratory_Analysis_and_Visualization_of_High_Dimensional_Data_via_Linear_and_Nonlinear_Projection_Techniques.ipynb
On_the_Role_of_Data_Shuffling_in_Cross_Validation_An_Empirical_Study_with_Scikit_learn.ipynb		On_the_Role_of_Data_Shuffling_in_Cross_Validation_An_Empirical_Study_with_Scikit_learn.ipynb
Optimizing_Decision_Boundaries_Post_Tuning_Classification_Thresholds_for_Cost_Sensitive_and_Imbalanced_Learning.ipynb		Optimizing_Decision_Boundaries_Post_Tuning_Classification_Thresholds_for_Cost_Sensitive_and_Imbalanced_Learning.ipynb
Predictive_Modeling_of_Customer_Churn_Using_Balanced_Binary_Classification_and_Ensemble_Learning_Techniques.ipynb		Predictive_Modeling_of_Customer_Churn_Using_Balanced_Binary_Classification_and_Ensemble_Learning_Techniques.ipynb
Principal_Component_Analysis.ipynb		Principal_Component_Analysis.ipynb
Quantifying_Hyperparameter_Dynamics_Validation_Curves_as_a_Diagnostic_Framework_for_Model_Bias–Variance_Trade_offs.ipynb		Quantifying_Hyperparameter_Dynamics_Validation_Curves_as_a_Diagnostic_Framework_for_Model_Bias–Variance_Trade_offs.ipynb
Quantifying_Predictive_Fidelity_An_Empirical_Framework_for_Regression_Metrics_and_Model_Evaluation.ipynb		Quantifying_Predictive_Fidelity_An_Empirical_Framework_for_Regression_Metrics_and_Model_Evaluation.ipynb
Quantitative_Indices_of_Representational_Fidelity_A_Metric_Based_Framework_for_Evaluating_Dimensionality_Reduction_Techniques.ipynb		Quantitative_Indices_of_Representational_Fidelity_A_Metric_Based_Framework_for_Evaluating_Dimensionality_Reduction_Techniques.ipynb
Quantitative_Paradigms_of_Model_Evaluation_A_Comprehensive_Empirical_Study_of_Classification_and_Regression_Metrics_in_Scikit_learn.ipynb		Quantitative_Paradigms_of_Model_Evaluation_A_Comprehensive_Empirical_Study_of_Classification_and_Regression_Metrics_in_Scikit_learn.ipynb
Quantitative_Paradigms_of_Unsupervised_Learning_An_Empirical_Framework_for_Clustering_Metrics_and_Algorithmic_Fidelity_Assessment.ipynb		Quantitative_Paradigms_of_Unsupervised_Learning_An_Empirical_Framework_for_Clustering_Metrics_and_Algorithmic_Fidelity_Assessment.ipynb
README.md		README.md
Randomized_Search_for_Efficient_Hyperparameter_Optimization_in_High_Dimensional_Spaces.ipynb		Randomized_Search_for_Efficient_Hyperparameter_Optimization_in_High_Dimensional_Spaces.ipynb
RetailCast_A_Temporal_Learning_Framework_for_Sales_Forecasting_Using_Lag_Based_Feature_Engineering_and_Tree_Based_Regression.ipynb		RetailCast_A_Temporal_Learning_Framework_for_Sales_Forecasting_Using_Lag_Based_Feature_Engineering_and_Tree_Based_Regression.ipynb
StackNet_A_Modular_Ensemble_Learning_Architecture_via_Layered_Meta_Classification.ipynb		StackNet_A_Modular_Ensemble_Learning_Architecture_via_Layered_Meta_Classification.ipynb
Successive_Halving_Strategies_for_Efficient_Hyperparameter_Optimization_An_End_to_End_Scikit_learn_Framework.ipynb		Successive_Halving_Strategies_for_Efficient_Hyperparameter_Optimization_An_End_to_End_Scikit_learn_Framework.ipynb
Uncertainty_Aware_Regression_Quantifying_Predictive_Confidence_via_Bootstrap_Ensembles_and_Quantile_Aware_Learning.ipynb		Uncertainty_Aware_Regression_Quantifying_Predictive_Confidence_via_Bootstrap_Ensembles_and_Quantile_Aware_Learning.ipynb
Unified_Multi_Modal_Learning_Pipeline_Integrating_Tabular,_Textual,_and_Visual_Representations_for_Predictive_Modeling.ipynb		Unified_Multi_Modal_Learning_Pipeline_Integrating_Tabular,_Textual,_and_Visual_Representations_for_Predictive_Modeling.ipynb
Unified_Paradigms_of_Model_Evaluation_An_Empirical_Exploration_of_Scikit_learn’s_Scoring_API_Across_Classification_and_Regression_Frameworks.ipynb		Unified_Paradigms_of_Model_Evaluation_An_Empirical_Exploration_of_Scikit_learn’s_Scoring_API_Across_Classification_and_Regression_Frameworks.ipynb
Unsupervised_Learning_for_Customer_Archetype_Discovery_A_Comparative_Clustering_Analysis_using_K_Means_and_DBSCAN.ipynb		Unsupervised_Learning_for_Customer_Archetype_Discovery_A_Comparative_Clustering_Analysis_using_K_Means_and_DBSCAN.ipynb
WA_Fn-UseC_-Telco-Customer-Churn.csv		WA_Fn-UseC_-Telco-Customer-Churn.csv
pca.ipynb		pca.ipynb

MOHAMMEDFAHD/Scikit-Learn-Collections

Folders and files

Latest commit

History

Repository files navigation

scikitelearn-collections

🔍 Overview

✨ Features

📦 Installation

Requirements

Install via pip (PyPI release coming soon)

🚀 Quick Start

🧠 Modules & Components

📁 Project Structure

🧪 Examples

✅ Contributing

🧪 Testing

📄 License

🙌 Acknowledgements

📬 Contact

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages