垃圾进,垃圾出。数据清洗、缺失值处理、异常值处理。特征缩放:标准化、归一化、鲁棒缩放。编码:One-Hot、Label、Target、Frequency编码,以及在管道Pipeline中的应用。
特征工程
特征工程
文章列表
- 81
- 82特征构造的艺术。多项式特征、交互特征。时间序列特征:滚动窗口、滞后特征。地理空间特征、文本特征、图像特征,以及在特征竞赛中的实践。
- 83过滤法、包装法、嵌入法。方差阈值、相关性分析、互信息。RFE递归特征消除、LASSO。基于模型的特征选择、SHAP值,以及在模型性能提升中的应用。
- 84从离散到连续的表示。Word2Vec、GloVe、FastText。Item2Vec、Doc2Vec、Graph2Vec。负采样、层次Softmax,以及在推荐、搜索、NLP中的应用。
- 85时间序列特征的特殊性。日历特征、周期特征、统计特征。滑动窗口、lag特征、差分特征。傅里叶变换、小波变换,以及在销量预测、负荷预测中的应用。
- 86文本的向量表示。TF-IDF、N-gram、Char-CNN。预训练Embedding、BERT特征。情感特征、主题特征(LDA)、关键词特征,以及在文本分类、情感分析中的应用。
- 87手工设计特征vs深度学习。颜色直方图、纹理特征(GLCM、LBP)。SIFT、SURF、HOG关键点。深度特征、预训练CNN特征,以及在图像检索、分类中的应用。
- 88Featuretools、AutoFeat自动化特征构造。AutoSklearn自动特征选择。神经架构特征学习、端到端学习。在数据竞赛、快速原型中的应用。
- 89特征工程工业化。特征存储架构、在线/离线特征。特征血缘、特征版本管理。特征监控、特征质量评估,以及在大型互联网公司中的实践。
- 90特征交叉的艺术。显式交叉、隐式交叉。FM、DeepFM、xDeepFM高阶交叉。自动特征交叉AutoCross、AutoFIS,以及在CTR预测、推荐排序中的应用。