感知机的局限性与多层感知机的突破。前向传播、反向传播算法推导、激活函数演变(Sigmoid→Tanh→ReLU→GELU→SwiGLU),权重初始化技巧(Xavier、He初始化)。
深度学习
深度学习
文章列表
- 11
- 12从LeNet-5到AlexNet,VGG的3x3卷积哲学,GoogLeNet的Inception模块,ResNet的残差连接革命,DenseNet、EfficientNet、ConvNeXt等现代架构解析。
- 13序列数据建模的挑战。RNN、LSTM的门控机制、GRU的简化设计。双向RNN、深层RNN训练技巧,以及梯度消失问题的解决方案。
- 14从Seq2Seq到Attention Is All You Need。自注意力机制数学推导、Multi-Head Attention、Position Encoding,以及Transformer如何革命性地改变了深度学习。
- 15SGD的局限性。Momentum、Nesterov加速、Adagrad、Adadelta、RMSprop、Adam、AdamW、AdaBelief等优化算法原理对比,学习率调度策略(Step Decay、Cosine、Warmup)。
- 16防止过拟合的完整工具箱。Dropout、DropPath、Stochastic Depth、Batch Normalization、Layer Normalization、Weight Decay、Early Stopping、Data Augmentation等技术的原理与最佳实践。
- 17从MSE到交叉熵,Focal Loss如何处理类别不平衡。对比损失、三元组损失用于度量学习。感知损失、风格损失、对抗损失,以及如何自定义损失函数。
- 18训练不收敛?梯度爆炸/消失?学习率如何设置?从batch size选择、梯度裁剪、学习率warmup、混合精度训练、分布式训练等实用技巧,培养模型调试直觉。
- 19从有标签到无标签的范式转变。SimCLR、MoCo、BYOL、SimSiam等对比学习方法,MAE、BERT等掩码自编码,以及如何在下游任务中有效利用预训练模型。
- 20生成模型的革命。GAN的基本原理、纳什均衡、训练稳定性问题。DCGAN、WGAN、StyleGAN、CycleGAN、Pix2Pix等变体,以及GAN在图像生成、风格迁移、数据增强中的应用。