开个新坑,从无名小卒到大模型(LLM)大英雄~ 欢迎关注B站后续更新!!!
目前(2025-10-19)已经开始在写自己的书籍了,欢迎大家跟踪公众号--chaofa用代码打点酱油追踪更新~
当然也可以在 个人 blog——yuanchaofa.com 获取到全部内容
- 完全从零手写,边写边讲知识点,致敬 Andrej Karpathy
- 体系化,具有完整的实践路线
- 配套视频讲解,B站视频
- 配套镜像 GPU,用于模型的训练,有演示和展示 Demo
- 最小使用 3090,4090 即可训练~
- 完全从零训练的 miniLLM 可以参考个人仓库 BitBrain——比特大脑 获取可以体验的 demo,欢迎体验学习~
大家可以用我的 AIStackDC 注册链接获得额外的 GPU 优惠券,2 张 1 折优惠券(4 小时)和 3 张 8 折优惠券(8 小时)。
- 大模型基础,介绍大模型训练的流程
- Dense Model (B站视频)
- MOE Model,(B站视频)
- ...
- 完全从零到一训练 LLM (Pre-Training)
- 完全从零到一微调 LLM (Supervised Fine-Tuning, SFT)
- 完全从零到一微调 LLM (Direct Preference Optimization, DPO)
- 完全从零到一微调 LLM (Reinforcement Learning from Human Feedback, RLHF)
- 用于写 Python 代码的 Code-LLM
- 大模型的部署
- 推理优化,量化等
- ...
如果本套教程对你有难度,可以看看 Hands-On Large Language Models CN(ZH) -- 动手学大模型,先使用
transformers入门,然后再来手把手自己实现大模型。
| 章节 | 文章解读 | 中文 Notebook 复制后可直接运行 |
视频讲解 (可点击) |
|---|---|---|---|
| 完全从零手写一个nanoGPT | todo | ||
| LLM MOE 的进化之路 | LLM MOE的进化之路,从普通简化 MOE,到 sparse_moe,再到 deepseek 使用的 share_expert_sparse_moe | ||
| DeepSeek-MLA 算法-无矩阵吸收 | Part1: 从代码角度学习和彻底理解 DeepSeek MLA 算法 自顶向下方式深度解读 DeepSeek-R1,内含大量细节 |
||
| DeepSeek-MLA 算法-矩阵吸收版 | Part2: 从代码和公式角度理解 DeepSeek MLA 的矩阵吸收 (Projection Absorption) |
||
| 从零实现 GRPO (Agent RL),用于 Agentic RAG 训练 | RAG 进化之路:传统 RAG 到工具与强化学习双轮驱动的 Agentic RAG | ||
| 激活函数优化 | LLM activate function激活函数的进化之路,从 ReLU,GELU 到 swishGLU | todo | todo |
├── chapter01 # 不同章节的学习笔记,最终会形成一本书籍
│ ├── README.md
│ ├── ...
├── chapter02
│ ├── README.md
│ ├── train.py
│ ├── ...
├── src/
│ ├── hero/ # 最终自研实现的大模型等会放到这个地方;
│ ├── chapter01/ # 这里会存放 chapter01 的代码;
│ ├── chapter02/ # 这里会存放 chapter02 的代码;
│ ├── video/ # 录制视频的时候用到的代码;
├── README.md
陆续会更新,欢迎关注!!!
- 方式 1:可以加我 wx: bbruceyuan (扫码链接(如果搜索账号添加不了)) 来群里催更或者反馈问题~
- 方式 2:关注我的博客:chaofa用代码打点酱油 (推荐)
- 方式 3: 关注我的公众号: chafa用代码打点酱油
公众号是 blog 的备份,也是一种提醒方式,也可以➕我好友,但是更好的阅读体验需要是 blog。
最后欢迎大家使用 AIStackDC 算力平台,主打一个便宜方便(有专门的客服支持),如果你需要的话可以使用我的邀请链接: https://aistackdc.com/phone-register?invite_code=D872A9