- 基于 WAN2.1 的潜空间风格向量映射
- 已实现用于调整视频风格的功能(当前已完成初步开发,尚未进行验证测试)
- 广泛阅读相关论文
- 深入了解图像生成与风格迁移领域的最新研究进展
- 复现 DreamBooth 算法
- 搭建训练流程并调试参数
- 使用 DreamBooth 对 WAN2.1 进行微调(Fine-tune)
- 提升模型对特定风格或对象的表现能力
- 复现 U-Net 架构
- 为后续语义分割任务打下基础
- 使用 U-Net 对视频中的物体进行语义分割
- 实现对视频中感兴趣区域的精准识别与处理
- 改进模型
- 优化模型推理效率,使其可在消费级显卡上流畅运行(如 RTX 4060 及以上)
本项目旨在实现基于VAE潜空间映射的视频生成风格控制,具体目标如下:
- 不调整 Prompt、不重新训练网络,仅通过潜空间向量映射实现视频风格控制
- 引入“温度参数”(temperature parameter),允许用户自由调节风格变换的强度
- 在广泛的数据集上具备良好的泛化能力,适应多种场景和视频内容