LLM 基础

大语言模型原理与应用 · Transformers、Tokenizer、Pre-training

文章列表

1
Transformers 架构深度解析
第 1 期 2026-01-09 · 8 分钟阅读进阶
Transformer架构是现代大语言模型的基础。深入解析自注意力机制、编码器-解码器结构、位置编码等核心组件，以及它如何革命性地改变了NLP领域。
2
大模型原理之Tokenizer分词器
第 2 期 2026-01-09 · 7 分钟阅读进阶
Tokenizer是LLM的入口，负责将文本转换为模型可理解的token。详解BPE、WordPiece、Unigram等分词算法，以及GPT、BERT、LLaMA等主流模型的tokenizer实现。
3
大模型原理之Pretraining预训练
第 3 期 2026-01-09 · 11 分钟阅读进阶
预训练是大模型获得智能的关键阶段。深入剖析MLM、CLM、PLM等预训练目标，海量数据训练过程，以及Scaling Law（缩放定律）如何指导模型规模扩展。
4
大模型原理之RLHF人类反馈强化学习
第 4 期 2026-01-10 · 11 分钟阅读进阶
RLHF使大模型与人类价值观对齐。详解Reward Model训练、PPO算法实现、Proximal Policy Optimization，以及如何通过人类偏好数据微调模型行为。
5
大模型原理之强化学习基础
第 5 期 2026-01-09 · 11 分钟阅读入门
强化学习是LLM训练的核心技术之一。讲解MDP、策略梯度、价值函数、探索与利用等RL基础概念，以及它们在大模型训练和推理中的应用。
6
Positional Encoding 位置编码
第 6 期 2026-01-10 · 9 分钟阅读入门
深入解析Transformer中的位置编码机制：Sinusoidal、RoPE（旋转位置编码）、ALiBi等位置表示方法，以及它们如何让模型理解序列顺序和相对位置关系。
7
Attention Mechanism 注意力机制全解
第 7 期 2026-01-10 · 9 分钟阅读进阶
全面解析注意力机制：从基础的Scaled Dot-Product Attention到Multi-head Attention，再到Cross-attention和Sparse Attention，深入理解注意力如何成为现代AI的核心。
8
Layer Normalization & 残差连接
第 8 期 2026-01-09 · 11 分钟阅读进阶
深入理解Transformer的两大稳定器：Layer Normalization如何解决内部协变量偏移问题，残差连接如何让梯度在深层网络中顺畅传播，以及它们如何让训练百层模型成为可能。
9
激活函数演变：从ReLU到SwiGLU
第 9 期 2026-01-09 · 10 分钟阅读入门
梳理神经网络激活函数的进化史：从ReLU、GELU、Swish到SwiGLU和GeGLU，分析不同激活函数的特性、优缺点，以及为什么现代LLM偏爱某些特定激活函数。
10
模型架构演进：从GPT-1到GPT-4
第 10 期 2026-01-09 · 6 分钟阅读进阶
回顾GPT系列模型的进化历程：从GPT-1的1.17亿参数到GPT-4的1.8万亿参数，分析参数规模、训练数据、能力边界的演进，理解Scaling Law如何驱动AI能力的指数级增长。