当前位置:网站首页>数据挖掘——数据预处理
数据挖掘——数据预处理
2022-04-22 05:36:00 【 木夕敢敢】
《数据挖掘》国防科技大学
《数据挖掘》青岛大学
《数据挖掘与python实践》
数据挖掘之数据预处理
1. 数据清洗 Data Cleaning
数据清洗:缺失值、噪声数据、离群点、不一致数据
(1)对于丢失数据:
- 忽略元组(对象),特别是缺少类标签时
- 删除缺失值比例较大的属性
- 手动补全:麻烦
- 自动插值:均值、众数等
(2)对于噪声数据和离群点: - 识别噪声数据并去除:聚类、回归
- 使用箱线图检测离群点并删除
- 平滑噪音以降低噪声数据的影响:分箱法binning、概念分层
分箱法:
按箱平均值平滑
按箱中值平滑
按箱边界平滑

(3)对于不一致数据
计算推理、替换、全局替换
2. 数据集成
数据集成:整合多个数据库、多维数据集或文件
(1)模式集成:统一同一含义的字段名
(2)实体识别:统一同一对象的不同称呼
(3)数据冲突和解决:统一单位
(4)冗余信息处理:相同对象或属性的不同名称、表征同一特征的多个属性
- 相关性分析
① 卡方检验——离散变量——越大越相关


观测值(期望值),期望值=行合计×列合计/总数
② 相关系数(皮尔逊相关系数)——连续变量——越大越相关

- 协方差分析

3. 数据缩减
数据缩减/规约/压缩:降维、降数据
*用于数据归约的时间不应当超过或“抵消”在归约后的数据集上挖掘节省的时间。
*归约得到的数据比原数据小得多,但可以产生相同或几乎相同的分析结果。
(1)降维/维归约(检测并删除不想管、弱相关或冗余的属性维)
- 主成分分析PCA(将多个相同的属性合并成一个)
计算花费低,可以用于有序和无序的属性,并且可以处理稀疏和倾斜数据。 - 属性子集选择
属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性的原分布。通常使用压缩搜索空间的启发式算法,策略是做局部最优选择,期望由此导致全局最优解。
① 逐步向前选择
该过程由空属性集开始,选择原属性集中最好的属性,并将它添加到该集合中。在其后的每一次迭代,将原属性集剩下的最好的属性添加到该集合中。
② 逐步向后删除
该过程由整个属性集开始。在每一步,删除掉尚在属性集中的最坏属性。如:粗糙集理论
③ 向前选择和向后删除的结合
将向前选择和向后删除方法结合在一起;
每一步选择一个最好的属性,并在剩余属性中删除一个最坏的属性。
④ 判定树归纳
判定树归纳构造一个类似于流程图的结构,其每个内部(非树叶)节点表示一个属性上的测试,每个分枝对应于测试的一个输出;每个外部(树 叶)节点表示一个判定类。在每个节点,算法选择“最好”的属性,将数据划分成类。 - 数据立方体聚集

(2)降数据:数据规模太大时 - 简单抽样:放回/不放回随机抽样
- 分层抽样:先分层后取样
- 聚类抽样:先聚类后取样
(3)数据压缩 - 无损压缩
- 有损压缩
小波变换:
可用于多维数据;对于稀疏或倾斜数据和具有有序属性的数据,小波变换可以给出很好的结果。
主成分分析
4. 数据转换和数据离散化
规范化、离散化、生成概念层次结构
(1)规范化
- 最小最大规范化

- Z得分规范化:书用于分布不变的流式数据

- 小数定标规范化

移动位数依赖于最大绝对数
(2)离散化 - 非监督离散
- 等宽法:根据属性的值域划分,每个区间的宽度相等
- 等频法:根据取值出现的频数划分,并要求落在每个区间的样本数目相等
- 聚类:利用聚类将数据划分到不同的离散类别
- 有监督离散
- 基于熵的离散化


- ChiMerge方法:合并相邻小区间为大区间,基于统计量卡方检验实现


(3)数据概化:使用概念分层用更抽样的概念取代低层次或数据层的数据对象。
如数值型的年龄属性映射到年轻、中年和老年。
如街道属性繁华到更高层次的城市、国家等。
- 基于熵的离散化
版权声明
本文为[ 木夕敢敢]所创,转载请带上原文链接,感谢
https://blog.csdn.net/Lilo_/article/details/124063444
边栏推荐
- Getting started with I / O Basics
- Installing mysql8 under Linux
- 认识和安装MySQL
- Simulate the infectious disease model with MATLAB (only do matlab simulation learning and practice, not actual situation and application)
- Redis缓存负载均衡使用的一致性哈希算法
- 常见的状态码
- Sum of numerators thinking
- JVM探究
- Array division (backpack)
- 等腰三角形-第九届蓝桥省赛-C组
猜你喜欢
随机推荐
redis设置与获取过期时间一网打尽
Mysql高级部分
数据库迁移遇到的问题和解决方案
01背包问题(模板)
Redis缓存负载均衡使用的一致性哈希算法
MySQL Chapter 7 complex query of data table
Error Putty X11 proxy: Authorisation not recognised
Force buckle 876 Intermediate node of linked list
3.连续整数Consecutive Integer
枚舉和Lambda錶達式
Random string tool class randomstringutils detailed explanation
数据已删除,又重新出现的问题排查
关于form表单点击submit按钮后,页面自动刷新的问题解决
为什么要引入协程
导弹拦截问题(dp,dilworth定理)
AcWing 836. 合并集合(并查集)
Fastjson determines whether the JSON string is object or list < object >
使用高德地图API进行坐标转换:WGS84→GCJ02
MySQL index
根源:pip终端下载的包import不能用








