The source code of NFIG
目前开源了NFIG的训练代码
数据集组织格式参考这个帖子https://www.zhihu.com/question/264345314/answer/1930557182
首先安装环境pip install -r requirements.txt
torchrun --nproc_per_node=1 tokenizer/tokenizer_image/frvae_train.py --config configs/NFIG-4096.yaml
训练完成后,会有一个ckpt路径 如 “NFIG/results_tokenizer_image/000-VQ-16/checkpoints/0001100.pt”
然后执行生成transformer的训练,
torchrun --master_port=29600 --nproc_per_node=1 train.py --bs=32 --alng=1e-4 --fp16=1 --alng=1e-4 --wpe=0.01 --tblr=8e-5 --data_path ../dataset/Imagenet --encoder_model vit_base_patch14_dinov2.lvd142m --decoder_model vit_base_patch14_dinov2.lvd142m --quantize_type -1 --product_quant 1 --lfq False --semantic_guide dinov2 --num_latent_tokens 256 --v_patch_nums 1 2 3 4 5 6 8 10 13 16 --pn 1_2_3_4_5_6_8_10_13_16 --patch_size 16 --vae_ckpt results_tokenizer_image/000-VQ-16/checkpoints/0001100.pt
完成
Thanks for the project XQGAN, VAR and VQGAN