Transformer架构是现代大语言模型的基础。深入解析自注意力机制、编码器-解码器结构、位置编码等核心组件,以及它如何革命性地改变了NLP领域。
LLM 基础
大语言模型原理与应用 · Transformers、Tokenizer、Pre-training
文章列表
- 1
- 2Tokenizer是LLM的入口,负责将文本转换为模型可理解的token。详解BPE、WordPiece、Unigram等分词算法,以及GPT、BERT、LLaMA等主流模型的tokenizer实现。
- 3预训练是大模型获得智能的关键阶段。深入剖析MLM、CLM、PLM等预训练目标,海量数据训练过程,以及Scaling Law(缩放定律)如何指导模型规模扩展。
- 4RLHF使大模型与人类价值观对齐。详解Reward Model训练、PPO算法实现、Proximal Policy Optimization,以及如何通过人类偏好数据微调模型行为。
- 5强化学习是LLM训练的核心技术之一。讲解MDP、策略梯度、价值函数、探索与利用等RL基础概念,以及它们在大模型训练和推理中的应用。
- 6深入解析Transformer中的位置编码机制:Sinusoidal、RoPE(旋转位置编码)、ALiBi等位置表示方法,以及它们如何让模型理解序列顺序和相对位置关系。
- 7全面解析注意力机制:从基础的Scaled Dot-Product Attention到Multi-head Attention,再到Cross-attention和Sparse Attention,深入理解注意力如何成为现代AI的核心。
- 8深入理解Transformer的两大稳定器:Layer Normalization如何解决内部协变量偏移问题,残差连接如何让梯度在深层网络中顺畅传播,以及它们如何让训练百层模型成为可能。
- 9梳理神经网络激活函数的进化史:从ReLU、GELU、Swish到SwiGLU和GeGLU,分析不同激活函数的特性、优缺点,以及为什么现代LLM偏爱某些特定激活函数。
- 10回顾GPT系列模型的进化历程:从GPT-1的1.17亿参数到GPT-4的1.8万亿参数,分析参数规模、训练数据、能力边界的演进,理解Scaling Law如何驱动AI能力的指数级增长。