深入了解 smolGPT：从零训练自己的 GPT 模型

博主： Kevin Zhang
发布时间：2025 年 02 月 06 日
123 次浏览
暂无评论
3634字数
分类： IT技术人工智能

最近，我发现了一个特别有趣的项目——smolGPT，它是一个极简的 PyTorch 实现，能够让我们从零训练一个属于自己的小型 GPT 模型。该项目的核心目标是教育用途，代码精炼，没有多余的抽象封装，使人可以直接理解大语言模型（LLM）是如何训练的。今天，我就带大家一起看看这个项目是如何工作的，并分享一下如何用它训练自己的 GPT 模型。

为什么选择 smolGPT？

在探索 LLM 训练过程中，通常会遇到很多复杂的框架，比如 Hugging Face Transformers、DeepSpeed 等工具。虽然它们强大，但内部封装过于深入，初学者很难直接上手。而 smolGPT 采用了最小化代码实现，直接基于 PyTorch 编写，让我们更清晰地理解 GPT 模型的核心结构。

主要特点

现代 GPT 架构：支持 Flash Attention（如果可用）、RMSNorm、SwiGLU 以及高效的 top-k/p 采样。
训练优化：支持混合精度（bfloat16/float16）、梯度累积、学习率预热（warmup）、权重衰减和梯度裁剪等优化技术。
数据支持：内置 TinyStories 训练数据处理，也可以自定义数据集。
自定义 Tokenizer：集成了 SentencePiece，用于训练自己的分词器。

这些特性使得它成为希望深入了解 GPT 训练原理的开发者们的绝佳学习材料。

环境准备

想要运行 smolGPT，你需要一个现代 GPU（最好支持 CUDA），并安装以下环境：

pip install -r requirements.txt

基本要求：

Python 3.8+
PyTorch 2.0+（带 CUDA 支持）

训练一个自己的 GPT

我们可以用 smolGPT 来训练一个从零开始的 LLM，主要分为三个步骤：

1. 预处理数据

首先，我们需要准备训练数据。smolGPT 默认使用 TinyStories 数据集，这是一个适合小型 GPT 训练的短故事集合。也可以使用自己的数据集，格式为简单的文本文件，每行一个样本。

执行以下命令进行数据预处理，并训练一个 4096 词汇量的分词器：

python preprocess.py prepare-dataset --vocab-size 4096

2. 开始训练

数据准备好后，就可以启动训练了：

python train.py

smolGPT 采用了标准的 GPT 训练流程，包括：

采用 8 层 Transformer，每层有 8 个注意力头，嵌入维度为 512。
上下文窗口为 512，适用于小规模任务。
训练过程使用 warmup + 余弦学习率衰减，初始学习率为 6e-4。
批量大小 64，总共训练 30,000 轮。

如果想修改这些参数，可以直接编辑 config.py：

GPTConfig(
    block_size=512,    # 上下文长度
    n_layer=8,         # Transformer 层数
    n_head=8,          # 注意力头数
    n_embed=512,       # 词向量维度
    dropout=0.2,       # Dropout
    bias=False         # 是否使用偏置
)

3. 文本生成

训练完成后，我们可以用 smolGPT 生成文本：

python sample.py --prompt "Once upon a time" --num_samples 3 --temperature 0.7 --max_new_tokens 500

这里：

--prompt 是输入的文本开头；
--num_samples 指定生成多少个样本；
--temperature 控制生成文本的随机性（值越高，文本越多样化）；
--max_new_tokens 限制生成的最大 token 数。

4. 使用预训练模型

如果不想自己训练，也可以直接使用别人训练好的模型，比如官方提供的 TinyStories-SmolGPT：

# 下载 tokenizer
wget https://huggingface.co/OmAlve/TinyStories-SmolGPT/resolve/main/tok4096.model -P data/

# 下载已训练好的 checkpoint
wget https://huggingface.co/OmAlve/TinyStories-SmolGPT/resolve/main/ckpt-v1.pt -P out/

然后执行：

python sample.py \
    --prompt "Once upon a time" \
    --tokenizer_path data/tok4096.model \
    --ckpt_dir out/ \
    --num_samples 3 \
    --max_new_tokens 200 \
    --temperature 0.7

这样，我们就可以用别人训练好的模型生成文本。

模型训练细节

训练数据

官方提供的 TinyStories 数据集，训练过程中大约使用了 40 亿个 token，训练时间 18.5 小时，最终的验证损失（Validation Loss）约为 1.0491。

模型结构

smolGPT 的默认模型架构如下：

词汇量：4096
Transformer 层数：8
注意力头数：8
嵌入维度：512
训练数据量：40 亿 token
训练时间：18.5 小时

在 config.py 中，可以调整这些参数以训练更大或更小的模型。

smolGPT VS 其他 LLM

可以简单对比一下 smolGPT 与其他 GPT 训练方案的特点：

特性	smolGPT	nanoGPT	Hugging Face Transformers
代码复杂度	低	中等	高
适合学习	✅	✅	❌（封装太深）
可扩展性	一般	高	非常高
训练速度	快	一般	依赖 DeepSpeed
适合生产环境	❌	✅	✅

如果你是初学者，想要了解 GPT 训练的基本原理，smolGPT 是一个非常好的入门选择。如果需要一个可以大规模训练的 LLM，nanoGPT 和 Hugging Face 可能更合适。

引用链接

[1] smolGPT: https://github.com/Om-Alve/smolGPT

END

本文作者： Kevin Zhang
文章标题：深入了解 smolGPT：从零训练自己的 GPT 模型
本文地址： https://www.haovps.top/archives/383.html
版权说明：若无注明，本文皆高性能VPS推荐与IT技术博客 | Haovps.Top 原创，转载请保留文章出处。

最后修改：2025 年 02 月 06 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

打卡

语录

私密评论

名称 *

🎲

邮箱 *

地址

深入了解 smolGPT：从零训练自己的 GPT 模型

Kevin Zhang • 2025 年 02 月 06 日

<p>最近，我发现了一个特别有趣的项目——<strong>smolGPT</strong>，它是一个极简的 <a href="https://www.haovps.top/tag/PyTorch/"target="_self" title="PyTorch">PyTorch</a> 实现，能够让我们从零训练一个属于自己的小型 GPT 模型。该项目的核心目标是教育用途，<a href="https://www.haovps.top/tag/%E4%BB%A3%E7%A0%81/"target="_self" title="代码">代码</a>精炼，没有多余的抽象封装，使人可以直接理解大语言模型（LLM）是如何训练的。今天，我就带大家一起看看这个项目是如何工作的，并分享一下如何用它训练自己的 GPT 模型。</p><p><img src="https://www.haovps.top/usr/themes/handsome/assets/img/loading.svg" alt="" title="" style=""data-original="https://img.haovps.top/2025/02/06/67a4d7963c47f.webp"></p><h2>为什么选择 <a href="https://www.haovps.top/tag/smolGPT/"target="_self" title="smolGPT">smolGPT</a>？</h2><p>在探索 LLM 训练过程中，通常会遇到很多复杂的框架，比如 Hugging Face Transformers、DeepSpeed 等工具。虽然它们强大，但内部封装过于深入，初学者很难直接上手。而 smolGPT 采用了<strong>最小化代码实现</strong>，直接基于 PyTorch 编写，让我们更清晰地理解 GPT 模型的核心结构。</p><h3>主要特点</h3><ul><li><strong>现代 GPT 架构</strong>：支持 Flash Attention（如果可用）、RMSNorm、SwiGLU 以及高效的 top-k/p 采样。</li><li><strong>训练优化</strong>：支持混合精度（bfloat16/float16）、梯度累积、学习率预热（warmup）、权重衰减和梯度裁剪等<a href="https://www.haovps.top/tag/%E4%BC%98%E5%8C%96/"target="_self" title="优化">优化</a>技术。</li><li><strong>数据支持</strong>：内置 TinyStories 训练数据处理，也可以自定义数据集。</li><li><strong>自定义 Tokenizer</strong>：集成了 SentencePiece，用于训练自己的分词器。</li></ul><p>这些特性使得它成为希望深入了解 GPT 训练原理的开发者们的绝佳学习材料。</p><h2>环境准备</h2><p>想要运行 smolGPT，你需要一个现代 GPU（最好支持 CUDA），并安装以下环境：</p><pre><code class="lang-bash">pip install -r requirements.txt</code></pre><p>基本要求：</p><ul><li><a href="https://www.haovps.top/tag/Python/"target="_self" title="Python">Python</a> 3.8+</li><li>PyTorch 2.0+（带 CUDA 支持）</li></ul><h2>训练一个自己的 GPT</h2><p>我们可以用 smolGPT 来训练一个从零开始的 LLM，主要分为三个步骤：</p><h3>1. 预处理数据</h3><p>首先，我们需要准备训练数据。smolGPT 默认使用 TinyStories 数据集，这是一个适合小型 GPT 训练的短故事集合。也可以使用自己的数据集，格式为简单的文本文件，每行一个样本。</p><p>执行以下<a href="https://www.haovps.top/tag/%E5%91%BD%E4%BB%A4/"target="_self" title="命令">命令</a>进行数据预处理，并训练一个 4096 词汇量的分词器：</p><pre><code class="lang-bash">python preprocess.py prepare-dataset --vocab-size 4096</code></pre><h3>2. 开始训练</h3><p>数据准备好后，就可以启动训练了：</p><pre><code class="lang-bash">python train.py</code></pre><p>smolGPT 采用了标准的 GPT 训练流程，包括：</p><ul><li>采用 <strong>8 层 Transformer</strong>，每层有 <strong>8 个注意力头</strong>，嵌入维度为 <strong>512</strong>。</li><li><strong>上下文窗口为 512</strong>，适用于小规模任务。</li><li>训练过程使用 <strong>warmup + 余弦学习率衰减</strong>，初始学习率为 6e-4。</li><li><strong>批量大小 64</strong>，总共训练 <strong>30,000 轮</strong>。</li></ul><p><img src="https://www.haovps.top/usr/themes/handsome/assets/img/loading.svg" alt="" title="" style=""data-original="https://img.haovps.top/2025/02/06/67a4d7a1dbf9b.webp"></p><p>如果想修改这些参数，可以直接编辑 <code>config.py</code>：</p><pre><code class="lang-python">GPTConfig(
    block_size=512,    # 上下文长度
    n_layer=8,         # Transformer 层数
    n_head=8,          # 注意力头数
    n_embed=512,       # 词向量维度
    dropout=0.2,       # Dropout
    bias=False         # 是否使用偏置
)</code></pre><h3>3. 文本生成</h3><p>训练完成后，我们可以用 smolGPT 生成文本：</p><pre><code class="lang-bash">python sample.py --prompt &quot;Once upon a time&quot; --num_samples 3 --temperature 0.7 --max_new_tokens 500</code></pre><p>这里：</p><ul><li><code>--prompt</code> 是输入的文本开头；</li><li><code>--num_samples</code> 指定生成多少个样本；</li><li><code>--temperature</code> 控制生成文本的随机性（值越高，文本越多样化）；</li><li><code>--max_new_tokens</code> 限制生成的最大 token 数。</li></ul><h3>4. 使用预训练模型</h3><p>如果不想自己训练，也可以直接使用别人训练好的模型，比如官方提供的 TinyStories-SmolGPT：</p><pre><code class="lang-bash"># 下载 tokenizer
wget https://huggingface.co/OmAlve/TinyStories-SmolGPT/resolve/main/tok4096.model -P data/

# 下载已训练好的 checkpoint
wget https://huggingface.co/OmAlve/TinyStories-SmolGPT/resolve/main/ckpt-v1.pt -P out/</code></pre><p>然后执行：</p><pre><code class="lang-bash">python sample.py \
    --prompt &quot;Once upon a time&quot; \
    --tokenizer_path data/tok4096.model \
    --ckpt_dir out/ \
    --num_samples 3 \
    --max_new_tokens 200 \
    --temperature 0.7</code></pre><p>这样，我们就可以用别人训练好的模型生成文本。</p><h2>模型训练细节</h2><h3>训练数据</h3><p>官方提供的 TinyStories 数据集，训练过程中大约使用了 <strong>40 亿个 token</strong>，训练时间 <strong>18.5 小时</strong>，最终的验证损失（Validation Loss）约为 <strong>1.0491</strong>。</p><h3>模型结构</h3><p>smolGPT 的默认模型架构如下：</p><ul><li><strong>词汇量</strong>：4096</li><li><strong>Transformer 层数</strong>：8</li><li><strong>注意力头数</strong>：8</li><li><strong>嵌入维度</strong>：512</li><li><strong>训练数据量</strong>：40 亿 token</li><li><strong>训练时间</strong>：18.5 小时</li></ul><p>在 <code>config.py</code> 中，可以调整这些参数以训练更大或更小的模型。</p><h2>smolGPT VS 其他 LLM</h2><p>可以简单对比一下 smolGPT 与其他 GPT 训练方案的特点：</p><table><thead><tr><th>特性</th><th>smolGPT</th><th>nanoGPT</th><th>Hugging Face Transformers</th></tr></thead><tbody><tr><td>代码复杂度</td><td>低</td><td>中等</td><td>高</td></tr><tr><td>适合学习</td><td>✅</td><td>✅</td><td>❌（封装太深）</td></tr><tr><td>可扩展性</td><td>一般</td><td>高</td><td>非常高</td></tr><tr><td>训练速度</td><td>快</td><td>一般</td><td>依赖 DeepSpeed</td></tr><tr><td>适合生产环境</td><td>❌</td><td>✅</td><td>✅</td></tr></tbody></table><p>如果你是初学者，想要了解 GPT 训练的基本原理，<strong>smolGPT 是一个非常好的入门选择</strong>。如果需要一个可以大规模训练的 LLM，nanoGPT 和 Hugging Face 可能更合适。</p><h4>引用链接</h4><p>[1] smolGPT: <a href="https://www.haovps.top/go/aHR0cHM6Ly9naXRodWIuY29tL09tLUFsdmUvc21vbEdQVA" target="_blank" >https://github.com/Om-Alve/smolGPT</a></p><hr>

深入了解 smolGPT：从零训练自己的 GPT 模型

为什么选择 smolGPT？

主要特点

环境准备

训练一个自己的 GPT

1. 预处理数据

2. 开始训练

3. 文本生成

4. 使用预训练模型

模型训练细节

训练数据

模型结构

smolGPT VS 其他 LLM

引用链接

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

OpenWrt 固件上安装 SSRplus、Passwall 和 Hello World 插件的详细教程

通过Ollama和RagFlow构建高效的本地知识库：从部署到应用的全流程指南

使用 Docker 安装 Ollama 部署本地大模型并接入 One-API

OpenWrt 安装与配置 AdGuard Home 实现全局广告拦截的详细教程

2025年最新OpenClash安装与配置指南

手把手教你在个人电脑部署本地知识库（基于RAGFlow + DeepSeek [+ Ollama]）

Overleaf 使用指南：本地部署与在线协作的完美结合

NAS必备Docker应用推荐：从照片备份到内网穿透，玩转热门工具

Rocketnotes：AI 加持的 Markdown 笔记应用

Dify应用开发课程: 从实践到原理(01)

深入了解 smolGPT：从零训练自己的 GPT 模型

为什么选择 smolGPT？

主要特点

环境准备

训练一个自己的 GPT

1. 预处理数据

2. 开始训练

3. 文本生成

4. 使用预训练模型

模型训练细节

训练数据

模型结构

smolGPT VS 其他 LLM

引用链接

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

深入了解 smolGPT：从零训练自己的 GPT 模型

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款