MirrorFlow 提供一套端到端工具链:
对话数据 -> 清洗/提取 -> 可训练样本 -> 微调/蒸馏 -> 使用与评测。
当前主要支持两条路线:
- 数字分身:用你的聊天记录微调,尽量还原你的表达习惯(请看 Readme 的下端)
- 数据蒸馏:对齐输出结构、澄清方式、拒答习惯、工具调用行为
[文章删除]
X: @qqqqqf5
Telegram: 点击此处添加我的双向聊天
以下是使用Qwen2.5 1.5b Instruct + 我自己的数据训练的Lora + 修改过的System Prompt的训练结果
仓库也包含一套完整的数字分身教程与流程,包括:
- QQ/TG 数据提取
- 聊天数据清洗与转换
- LlamaFactory 微调流程
- 微调模型的测试与使用
点击此处快速开始
部分代码参考自 Weclone。
欢迎通过 Issues/PR 参与贡献。
若你想贡献数据,请只提交你有权分享的数据,并避免任何隐私/敏感信息。
租 GPU 成本很高。如果你愿意支持算力开销,可以先开 Issue 留言你偏好的方式(我会把它整理成稳定的赞助入口)。
Apache-2.0

