Post-pre-training for Modality Alignment in Vision-Language Foundation Models (CVPR2025)

Requirements

Software Requirements

CUDA >= 12.3

Python Requirements

Please see apptainer/config.def

Preparations

Post-pre-training Dataset: COCO Caption (2017)

Download the dataset from here
Install the dataset into ./dataset/coco/

Evaluation Dataset: ImageNet

Download the dataset from here
Install the dataset into ./dataset/imagenet/

Example

Run Post-pre-training of CLIP-Refine on COCO Caption

python3 main/train.py --config_path config/01_post-pre-training/clip-refine.yaml

Evaluate Zero-shot Performance on ImageNet

python3 main/test.py --config_path config/01_post-pre-training/clip-refine.yaml

Citation

@inproceedings{Yamaguchi_CVPR25_CLIP-Refine,
  title={Post-pre-training for Modality Alignment in Vision-Language Foundation Models},
  author={Yamaguchi, Shin'ya and Feng, Dewei and Kanai, Sekitoshi and Adachi, Kazuki and Chijiwa, Daiki},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2025}
}

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
apptainer		apptainer
config/01_post-pre-training		config/01_post-pre-training
data		data
evaluator		evaluator
loss		loss
main		main
metrics		metrics
model		model
updater		updater
util		util
LICENSE.txt		LICENSE.txt
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

Uh oh!

Repository files navigation

Post-pre-training for Modality Alignment in Vision-Language Foundation Models (CVPR2025)

Requirements

Software Requirements

Python Requirements

Preparations

Post-pre-training Dataset: COCO Caption (2017)

Evaluation Dataset: ImageNet

Example

Run Post-pre-training of CLIP-Refine on COCO Caption

Evaluate Zero-shot Performance on ImageNet

Citation

About

Uh oh!

Releases

Packages

Languages

Uh oh!

License

Uh oh!

yshinya6/clip-refine

Folders and files

Latest commit

History

Repository files navigation

Post-pre-training for Modality Alignment in Vision-Language Foundation Models (CVPR2025)

Requirements

Software Requirements

Python Requirements

Preparations

Post-pre-training Dataset: COCO Caption (2017)

Evaluation Dataset: ImageNet

Example

Run Post-pre-training of CLIP-Refine on COCO Caption

Evaluate Zero-shot Performance on ImageNet

Citation

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages