Skip to content

weiruihhh/cs336_note_and_hw

Repository files navigation

CS336: 构建大型语言模型 - 课程笔记与作业

Stanford 深度学习 语言模型

这个仓库包含了我在斯坦福大学 CS336 课程中的个人笔记��已完成的作业。这门课程全面地探讨了如何从零开始构建大型语言模型。

⭐ 如果这个项目对你有帮助,请您给我一个 Star⭐

📜 目录


📖 项目简介

本项目我对斯坦福大学 CS336: Building Large Language Models 课程的完整学习资源总结,包含:

  • 📚 详细的课程笔记 - 系统梳理从零构建大语言模型的核心概念
  • 💻 完整的作业实现 - 包含所有编程作业的代码和详细注释

📚 课堂笔记

这部分包含了我的个人课堂笔记。我尝试在这里提炼课程中介绍的核心概念和思想。

已放至 笔记/ 目录下

💻 课程作业

在这里你可以找到我的编程作业解决方案。每一次作业都是向着构建和理解大型语言模型复杂组件迈出的一步。

作业编号 主题 描述 状态 难度
Ch. 1 基础知识(Transformer 架构详解) 深入探讨语言模型的基本构建模块,包括 Tokenizer、Embedding 等 ✅ 已完成 ⭐⭐⭐⭐⭐
Ch. 2 并行优化与Triton实现 探索训练大型模型的优化方法,包括 Flash Attention、数据并行等 ✅ 已完成 ⭐⭐⭐⭐⭐
Ch. 3 Scaling Law 了解大模型的第一性原理,研究模型规模与性能的关系 ✅ 已完成
Ch. 4 完整数据清洗流程 实现对网页数据的完整的数据清洗与质量分类流程 ✅ 已完成 ⭐⭐⭐
Ch. 5 LLM + RL 实现前沿的GRPO算法等 ✅ 已完成 ⭐⭐⭐⭐⭐
Ch. 6 LLM + RL 实现DPO ✅ 已完成 ⭐⭐⭐⭐⭐

目前未完善的地方:第二章漏了一个作业;第四章大作业未完成;第五章实验要整体重做;笔记各个章节都有纰漏还未完成。

📬 联系方式

欢迎加入QQ群一起讨论:1039207477

CS336 QQ Group

📊 项目统计

⭐ Star History

Star History Chart


📄 许可证

本项目采用 知识共享署名-非商业性-相同方式共享 4.0 国际许可协议(CC BY-NC-SA 4.0)

📋 许可条款

  • 允许:查看、学习、修改、分享
  • 禁止:商业用途
  • 📝 要求:保留版权信息,修改后的作品需使用相同许可

详情请见 LICENSE 文件。


About

记录我在cs336学习时的笔记和作业

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages