Thanks to visit codestin.com
Credit goes to github.com

Skip to content

qqqqqf-q/MirrorFlow

Repository files navigation

MirrorFlow

旧名:Qing-Digital-Self

对话数据到训练闭环:数字分身 + 模型蒸馏

Status Version License Stars Forks Last Commit Issues

MirrorFlow 提供一套端到端工具链:

对话数据 -> 清洗/提取 -> 可训练样本 -> 微调/蒸馏 -> 使用与评测

当前主要支持两条路线:

  • 数字分身:用你的聊天记录微调,尽量还原你的表达习惯(请看 Readme 的下端)
  • 数据蒸馏:对齐输出结构、澄清方式、拒答习惯、工具调用行为

Distill

以下是使用Qwen2.5 1.5b Instruct + 我自己的数据训练的Lora + 修改过的System Prompt的训练结果

4o Lora + 仿4o System Prompt

xQpkmjWrW9OS238rTNXdW5GJX2ugKHBO.webp

仅Qwen原模型无SystemPrompt

OxgLDX78G6ADAZdubwmXP4MUQzQTdS9P.webp

数字分身

仓库也包含一套完整的数字分身教程与流程,包括:

  • QQ/TG 数据提取
  • 聊天数据清洗与转换
  • LlamaFactory 微调流程
  • 微调模型的测试与使用

点击此处快速开始
部分代码参考自 Weclone。

参与贡献

欢迎通过 Issues/PR 参与贡献。
若你想贡献数据,请只提交你有权分享的数据,并避免任何隐私/敏感信息。

租 GPU 成本很高。如果你愿意支持算力开销,可以先开 Issue 留言你偏好的方式(我会把它整理成稳定的赞助入口)。

Star History

Star History Chart

License

Apache-2.0

About

从对话数据到训练:数字分身 + 模型蒸馏 From Dialogue Data to Training Closed-Loop: Digital Twin + Model Distillation

Topics

Resources

License

Stars

Watchers

Forks

Contributors

Languages