这个仓库包含了我在斯坦福大学 CS336 课程中的个人笔记��已完成的作业。这门课程全面地探讨了如何从零开始构建大型语言模型。
⭐ 如果这个项目对你有帮助,请您给我一个 Star⭐
本项目我对斯坦福大学 CS336: Building Large Language Models 课程的完整学习资源总结,包含:
- 📚 详细的课程笔记 - 系统梳理从零构建大语言模型的核心概念
- 💻 完整的作业实现 - 包含所有编程作业的代码和详细注释
这部分包含了我的个人课堂笔记。我尝试在这里提炼课程中介绍的核心概念和思想。
已放至 笔记/ 目录下
在这里你可以找到我的编程作业解决方案。每一次作业都是向着构建和理解大型语言模型复杂组件迈出的一步。
| 作业编号 | 主题 | 描述 | 状态 | 难度 |
|---|---|---|---|---|
| Ch. 1 | 基础知识(Transformer 架构详解) | 深入探讨语言模型的基本构建模块,包括 Tokenizer、Embedding 等 | ✅ 已完成 | ⭐⭐⭐⭐⭐ |
| Ch. 2 | 并行优化与Triton实现 | 探索训练大型模型的优化方法,包括 Flash Attention、数据并行等 | ✅ 已完成 | ⭐⭐⭐⭐⭐ |
| Ch. 3 | Scaling Law | 了解大模型的第一性原理,研究模型规模与性能的关系 | ✅ 已完成 | ⭐ |
| Ch. 4 | 完整数据清洗流程 | 实现对网页数据的完整的数据清洗与质量分类流程 | ✅ 已完成 | ⭐⭐⭐ |
| Ch. 5 | LLM + RL | 实现前沿的GRPO算法等 | ✅ 已完成 | ⭐⭐⭐⭐⭐ |
| Ch. 6 | LLM + RL | 实现DPO | ✅ 已完成 | ⭐⭐⭐⭐⭐ |
目前未完善的地方:第二章漏了一个作业;第四章大作业未完成;第五章实验要整体重做;笔记各个章节都有纰漏还未完成。
欢迎加入QQ群一起讨论:1039207477
本项目采用 知识共享署名-非商业性-相同方式共享 4.0 国际许可协议(CC BY-NC-SA 4.0)。
- ✅ 允许:查看、学习、修改、分享
- ❌ 禁止:商业用途
- 📝 要求:保留版权信息,修改后的作品需使用相同许可
详情请见 LICENSE 文件。
