GenAlign: RL-based Synthetic Data Generation

A reinforcement learning system that improves synthetic data generation by training a generator (Llama-3.1-8B) using PPO, guided by classifier performance on real data and distributional quality metrics.

Overview

This project implements a closed-loop system where:

A generator produces synthetic data using in-context learning
A classifier is trained on the synthetic data
The classifier's performance on real data, combined with distributional quality metrics, forms a reward signal
The generator is optimized using PPO to maximize this reward

Methodology

The system follows this pipeline:

Generate synthetic data using the generator with ICL examples
Train a RoBERTa classifier on the synthetic data
Evaluate the classifier on golden (real) data to get the golden loss
Compute inter-class and intra-class distances of the generated data
Combine these metrics into a reward signal
Use PPO to align the generator based on the reward
Repeat until convergence

Installation

pip install -r requirements.txt

Usage

Training

python scripts/train.py --config config/config.yaml

Evaluation

python scripts/evaluate.py --config config/config.yaml --checkpoint outputs/checkpoint_epoch_10

Configuration

Edit config/config.yaml to customize:

Model parameters
Training hyperparameters
Reward weights
Convergence criteria
Data paths

Project Structure

genalign/
├── config/           # Configuration files
├── src/             # Source code modules
│   ├── data/        # Data loading and sampling
│   ├── generator/   # Llama-3.1-8B generator
│   ├── classifier/  # RoBERTa classifier
│   ├── metrics/     # Distance computation
│   ├── reward/      # Reward computation
│   ├── rl/          # PPO training
│   └── utils/       # Utilities
├── scripts/         # Training and evaluation scripts
└── outputs/         # Model checkpoints and logs

Requirements

Python 3.8+
CUDA-compatible GPU (recommended)
16GB+ RAM
50GB+ disk space for model cache

License

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 26 Commits
config		config
data		data
jano		jano
src		src
.gitignore		.gitignore
IMPLEMENTATION_SUMMARY.md		IMPLEMENTATION_SUMMARY.md
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

GenAlign: RL-based Synthetic Data Generation

Overview

Methodology

Installation

Usage

Training

Evaluation

Configuration

Project Structure

Requirements

License

About

Uh oh!

Releases

Packages

Languages

Wicwik/genalign

Folders and files

Latest commit

History

Repository files navigation

GenAlign: RL-based Synthetic Data Generation

Overview

Methodology

Installation

Usage

Training

Evaluation

Configuration

Project Structure

Requirements

License

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages