当前位置:网站首页>面试总结之特征工程
面试总结之特征工程
2022-04-23 06:11:00 【DCGJ666】
面试总结之特征工程
特征工程有哪些
- 数据预处理
1. 处理缺失值
2. 图片数据扩充
3. 处理异常值
4. 处理类别不平衡问题 - 特征缩放
1. 归一化
2. 正则化 - 特征编码
1. 序号编码
2. 独热编码
3. 二进制编码
4. 离散化 - 特征选择
1. 过滤式(filter):先对数据集进行特征选择,其过程与后续学习器无关,即设计一些统计量来过滤特征,并不考虑后续学习器问题,如方差选择,卡方检验,互信息
2. 包裹式(wrapper):实际上就是一个分类器,它是后续的学习器的性能作为特征子集的评价标准。如las vagas算法
3. 嵌入式(embedding):实际上是学习器自主选择特征。如基于惩罚项的选择,基于树的选择GBDT - 特征提取
1. 降维
2. 图像特征提取
3. 文本特征提取 - 特征构建
遇到缺值的情况,有哪些处理方式
- 直接使用含有缺失值的特征:当仅有少量样本缺失该特征的时候可以尝试使用;
- 删除含有缺失值的特征:这个方法一般适用于大多数样本都缺少该特征,且仅包含少量有效值是有效的
- 插值补全缺失值
均值、众数、中位数、固定值、手动、最近邻补全
建模预测:回归、决策树
高维映射,压缩感知
多种方法插补
样本不均衡的处理办法
- 扩充数据集
- 尝试其他评价指标
- 对数据集进行重采样
- 对小类的数据样本进行采样来增加小类的数据样本个数,即过采样(over-sampling, 采样的个数大于该类样本的个数)
- 对大类的数据样本进行采样来减少该类数据样本的个数,即欠采样(under-sampling, 采样的次数少于该类样本的个数)
- 尝试不同的分类算法:如决策树往往在类别不均衡数据上表现不错
- 尝试对模型进行惩罚:比如你的分类任务是识别那些小类,那么可以对分类器的小类样本数据增加权值,降低大类样本的权值,focal loss
出现Nan的原因
- Nan的含义是没有意义的数,一般有几种情况:0/0, Inf/Inf, Inf-Inf, Inf*0等,都会导致结果不确定,所以会得到NaN
- 数据处理时,在实际工程中经常数据的缺失或者不完整,此时我们可以将那些缺失设置为nan
- 读取数据时,某个字符不是数据,那么我们将它认为nan处理
特征筛选,怎么找出相似性高的特征并去掉
特征选择—过滤法:可以采用方差选择法或相关系数法
包含百万,上亿特征的数据在深度学习中怎么处理
特征多,数据少,很容易导致模型过拟合
- 降维:PCA 或LDA
- 使用正则化,L1或L2
- 样本扩充
- 特征选择:去掉不重要的特征
计算特征之间的相关性方法有哪些?
- pearson系数,对定距连续变量的数据进行计算。是介于-1和1之间的值
- spearman秩相关系数:是度量两个变量之间的统计相关性的指标,用来评估当前单调函数来描述两个变量之间的关系有多好
- kendall相关系数:肯德尔系数是一个用来测量两个随机变量相关性的统计值
版权声明
本文为[DCGJ666]所创,转载请带上原文链接,感谢
https://blog.csdn.net/DCGJ666/article/details/124210460
边栏推荐
- Reading notes - activity
- ArcGIS license server administrator cannot start the workaround
- Chapter 2 pytoch foundation 1
- Chapter 3 pytoch neural network toolbox
- PyTorch 模型剪枝实例教程三、多参数与全局剪枝
- Compression and acceleration technology of deep learning model (I): parameter pruning
- Bottom navigation bar based on bottomnavigationview
- Pytorch best practices and coding style guide
- [point cloud series] sg-gan: advantageous self attention GCN for point cloud topological parts generation
- 【2021年新书推荐】Professional Azure SQL Managed Database Administration
猜你喜欢

【点云系列】SO-Net:Self-Organizing Network for Point Cloud Analysis

【2021年新书推荐】Enterprise Application Development with C# 9 and .NET 5

ThreadLocal,看我就够了!

c语言编写一个猜数字游戏编写

第3章 Pytorch神经网络工具箱

【点云系列】Neural Opacity Point Cloud(NOPC)
![[3D shape reconstruction series] implicit functions in feature space for 3D shape reconstruction and completion](/img/4d/6d5821759766a6bf1d77ad51b69e24.png)
[3D shape reconstruction series] implicit functions in feature space for 3D shape reconstruction and completion

ThreadLocal, just look at me!

Machine learning II: logistic regression classification based on Iris data set

Google AdMob advertising learning
随机推荐
WebRTC ICE candidate里面的raddr和rport表示什么?
Pytorch best practices and coding style guide
第3章 Pytorch神经网络工具箱
【 planification dynamique】 différentes voies 2
【点云系列】SO-Net:Self-Organizing Network for Point Cloud Analysis
给女朋友写个微信双开小工具
GEE配置本地开发环境
Cancel remote dependency and use local dependency
torch_ Geometric learning 1, messagepassing
MySQL notes 2_ data sheet
【2021年新书推荐】Enterprise Application Development with C# 9 and .NET 5
Kotlin征途之data class [数据类]
.net加载字体时遇到 Failed to decode downloaded font:
Mysql database installation and configuration details
SSL/TLS应用示例
【点云系列】Multi-view Neural Human Rendering (NHR)
[recommendation of new books in 2021] practical IOT hacking
素数求解的n种境界
C language, a number guessing game
Gee configuring local development environment