返回项目列表

模型实现、实验报告与理论分析

从 Bigram 到 GPT-2 的语言模型实验

智能计算系统课程实验中,从 Bigram、自注意力、Mini-Transformer 到 GPT-2 逐步实现和分析语言模型。

研究原型 C:/coding/智能计算系统/实验一
TransformerLanguage ModelingSelf-AttentionGPT-2Notebook

项目简介

该项目从最基础的 Bigram 语言模型出发,逐步加入 Self-Attention、Mini-Transformer,并进一步分析 GPT-2 模型结构。

技术栈

我的工作

我完成了多个 Notebook、运行脚本和实验报告,并将课程实验转换为一个连续的语言模型学习路径。

方法与实现

实验按照“统计语言模型 -> 注意力机制 -> Transformer 组合 -> GPT-2 分析”的顺序推进,适合作为考研/科研准备中的深度学习基础展示。

难点与解决

难点在于把模型结构和实验现象对应起来,而不是只运行 Notebook。项目通过分阶段报告记录每一步模型能力变化。

复盘

后续可以把这条线整理成博客系列,重点写自注意力、残差结构、位置编码和生成质量评估。