当前位置:网站首页>面试总结之特征工程
面试总结之特征工程
2022-04-23 06:11:00 【DCGJ666】
面试总结之特征工程
特征工程有哪些
- 数据预处理
1. 处理缺失值
2. 图片数据扩充
3. 处理异常值
4. 处理类别不平衡问题 - 特征缩放
1. 归一化
2. 正则化 - 特征编码
1. 序号编码
2. 独热编码
3. 二进制编码
4. 离散化 - 特征选择
1. 过滤式(filter):先对数据集进行特征选择,其过程与后续学习器无关,即设计一些统计量来过滤特征,并不考虑后续学习器问题,如方差选择,卡方检验,互信息
2. 包裹式(wrapper):实际上就是一个分类器,它是后续的学习器的性能作为特征子集的评价标准。如las vagas算法
3. 嵌入式(embedding):实际上是学习器自主选择特征。如基于惩罚项的选择,基于树的选择GBDT - 特征提取
1. 降维
2. 图像特征提取
3. 文本特征提取 - 特征构建
遇到缺值的情况,有哪些处理方式
- 直接使用含有缺失值的特征:当仅有少量样本缺失该特征的时候可以尝试使用;
- 删除含有缺失值的特征:这个方法一般适用于大多数样本都缺少该特征,且仅包含少量有效值是有效的
- 插值补全缺失值
均值、众数、中位数、固定值、手动、最近邻补全
建模预测:回归、决策树
高维映射,压缩感知
多种方法插补
样本不均衡的处理办法
- 扩充数据集
- 尝试其他评价指标
- 对数据集进行重采样
- 对小类的数据样本进行采样来增加小类的数据样本个数,即过采样(over-sampling, 采样的个数大于该类样本的个数)
- 对大类的数据样本进行采样来减少该类数据样本的个数,即欠采样(under-sampling, 采样的次数少于该类样本的个数)
- 尝试不同的分类算法:如决策树往往在类别不均衡数据上表现不错
- 尝试对模型进行惩罚:比如你的分类任务是识别那些小类,那么可以对分类器的小类样本数据增加权值,降低大类样本的权值,focal loss
出现Nan的原因
- Nan的含义是没有意义的数,一般有几种情况:0/0, Inf/Inf, Inf-Inf, Inf*0等,都会导致结果不确定,所以会得到NaN
- 数据处理时,在实际工程中经常数据的缺失或者不完整,此时我们可以将那些缺失设置为nan
- 读取数据时,某个字符不是数据,那么我们将它认为nan处理
特征筛选,怎么找出相似性高的特征并去掉
特征选择—过滤法:可以采用方差选择法或相关系数法
包含百万,上亿特征的数据在深度学习中怎么处理
特征多,数据少,很容易导致模型过拟合
- 降维:PCA 或LDA
- 使用正则化,L1或L2
- 样本扩充
- 特征选择:去掉不重要的特征
计算特征之间的相关性方法有哪些?
- pearson系数,对定距连续变量的数据进行计算。是介于-1和1之间的值
- spearman秩相关系数:是度量两个变量之间的统计相关性的指标,用来评估当前单调函数来描述两个变量之间的关系有多好
- kendall相关系数:肯德尔系数是一个用来测量两个随机变量相关性的统计值
版权声明
本文为[DCGJ666]所创,转载请带上原文链接,感谢
https://blog.csdn.net/DCGJ666/article/details/124210460
边栏推荐
- 【点云系列】Multi-view Neural Human Rendering (NHR)
- Chapter 3 pytoch neural network toolbox
- torch_ Geometric learning 1, messagepassing
- Visual studio 2019 installation and use
- Five methods are used to obtain the parameters and calculation of torch network model
- 【動態規劃】不同路徑2
- 【點雲系列】SG-GAN: Adversarial Self-Attention GCN for Point Cloud Topological Parts Generation
- MySQL5. 7 insert Chinese data and report an error: ` incorrect string value: '\ xb8 \ XDF \ AE \ xf9 \ X80 at row 1`
- 常见的正则表达式
- torch_geometric学习一,MessagePassing
猜你喜欢
1.1 PyTorch和神经网络
Bottom navigation bar based on bottomnavigationview
[2021 book recommendation] effortless app development with Oracle visual builder
【点云系列】Fully-Convolutional geometric features
Mysql database installation and configuration details
【2021年新书推荐】Effortless App Development with Oracle Visual Builder
【2021年新书推荐】Artificial Intelligence for IoT Cookbook
微信小程序 使用wxml2canvas插件生成图片部分问题记录
adb shell top 命令详解
[3D shape reconstruction series] implicit functions in feature space for 3D shape reconstruction and completion
随机推荐
【2021年新书推荐】Red Hat Certified Engineer (RHCE) Study Guide
Component based learning (3) path and group annotations in arouter
Markdown basic grammar notes
微信小程序 使用wxml2canvas插件生成图片部分问题记录
torch.mm() torch.sparse.mm() torch.bmm() torch.mul() torch.matmul()的区别
PaddleOCR 图片文字提取
【3D形状重建系列】Implicit Functions in Feature Space for 3D Shape Reconstruction and Completion
Miscellaneous learning
Fill the network gap
Android暴露组件——被忽略的组件安全
What did you do during the internship
[point cloud series] pnp-3d: a plug and play for 3D point clouds
Thanos.sh灭霸脚本,轻松随机删除系统一半的文件
第4章 Pytorch数据处理工具箱
Visual Studio 2019安装与使用
【点云系列】 A Rotation-Invariant Framework for Deep Point Cloud Analysis
【2021年新书推荐】Practical Node-RED Programming
winform滚动条美化
Use originpro express for free
GEE配置本地开发环境