LLM Post-Training Lab

This repository contains implementations of post-training techniques for Large Language Models (LLMs), providing hands-on examples for fine-tuning and adapting models for specific tasks.

Overview

This lab includes practical implementations of various post-training techniques:

SFT (Supervised Fine-Tuning) - Complete pipeline with QLoRA for efficient fine-tuning
DPO (Direct Preference Optimization) - (WIP) Preference-based training
RL (Reinforcement Learning) - (WIP) RL-based fine-tuning methods

Quick Start

Each module contains its own setup instructions and examples. Start with the SFT module for a complete fine-tuning pipeline.

Contributing

Contributions are welcome! Please feel free to submit issues, feature requests, or pull requests.

License

This project is licensed under the MIT License.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
src/sft		src/sft
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLM Post-Training Lab

Overview

Quick Start

Contributing

License

About

Uh oh!

Releases

Packages

Languages

eludius18/llm-posttraining-lab

Folders and files

Latest commit

History

Repository files navigation

LLM Post-Training Lab

Overview

Quick Start

Contributing

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages