当前位置:网站首页>数据分析入门 | kaggle泰坦尼克任务(三)—>探索数据分析
数据分析入门 | kaggle泰坦尼克任务(三)—>探索数据分析
2022-04-23 06:20:00 【猿知】

一、探索性数据分析
主要介绍利用Pandas进行排序、算术计算以及计算描述函数describe()的使用。
(1)创建一个模拟数据
#自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
index=['2', '1'],
columns=['d', 'a', 'b', 'c'])
frame
pd.DataFrame():创建一个DataFrame对象
np.arange(8).reshape((2, 4)) : 生成一个二维数组(2*4),第一列:0,1,2,3 第二列:4,5,6,7
index=['2, 1] :DataFrame 对象的索引列
columns=['d', 'a', 'b', 'c']:DataFrame 对象的索引行
(2)排序
frame.sort_values(by='c', ascending=True) #by参数指向要排列的列,sacending指向排序方式(升序/降序)
# 让行索引升序排序
frame.sort_index()
# 让列索引升序排序
frame.sort_index(axis=1)
# 让列索引降序排序
frame.sort_index(axis=1, ascending=False)
# 让任选两列数据同时降序排序
frame.sort_values(by=['a', 'c'], ascending=False)
对于两列进行排序时,按照先后顺序排列,如果前者中存在相等的数,则按后面一个列进行排序。
如:sort_values(by=['a','c'].ascending = [False, True])
这行意思是先按照a进行降序排列,当a中有相同值时按b升序排列。
(3)利用Pandas进行算术计算
frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
columns=['a', 'b', 'c'],
index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
columns=['a', 'e', 'c'],
index=['first', 'one', 'two', 'second'])
frame1_a
#将frame_a和frame_b进行相加
frame1_a + frame1_b
【提醒】两个DataFrame相加后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值NaN。
当然,DataFrame还有很多算术运算,如减法,除法等,有兴趣的同学可以看《利用Python进行数据分析》第五章 算术运算与数据对齐 部分,多在网络上查找相关学习资料。
# 调用 describe 函数,观察frame2的数据基本信息
frame2.describe()
''' count : 样本数据大小 mean : 样本数据的平均值 std : 样本数据的标准差 min : 样本数据的最小值 25% : 样本数据25%的时候的值 50% : 样本数据50%的时候的值 75% : 样本数据75%的时候的值 max : 样本数据的最大值 '''
''' 看看泰坦尼克号数据集中 票价 这列数据的基本统计数据 '''
text['票价'].describe()
数据分析入门 | kaggle泰坦尼克任务 系列持续更新,欢迎
点赞收藏+关注
上一篇:数据分析入门 | kaggle泰坦尼克任务(二)—>pandas基础
下一篇:数据分析入门 | kaggle泰坦尼克任务(四)—>数据清洗及特征处理
本人水平有限,文章中不足之处欢迎下方评论区批评指正~如果感觉对你有帮助,点个赞 支持一下吧 ~
不定期分享 有趣、有料、有营养内容,欢迎 订阅关注 我的博客 ,期待在这与你相遇 ~
版权声明
本文为[猿知]所创,转载请带上原文链接,感谢
https://blog.csdn.net/Magic_Zsir/article/details/123561439
边栏推荐
- P1390 公约数的和(莫比乌斯反演)
- xdotool按键精灵
- Emergency air space integrated communication system scheme of Guangxi Power Grid
- 保洁阿姨都能看懂的中国剩余定理和扩展中国剩余定理
- Wireless communication system for large-scale sports events
- [牛客练习赛68]牛牛的粉丝(矩阵快速幂之循环矩阵优化)
- Applet newline character \ nfailure problem resolution - Daily pit stepping
- ES6之箭头函数细谈
- 不需要破解markdown编辑工具Typora
- 可视化之路(十)分割画布函数详解
猜你喜欢

javscript获取文件真实后缀名

el-select 中v-model绑定值,数据回显只显示value,不显示label

Jiangning hospital DMR system solution

Jupyter Notebook 安装

Typora操作技巧说明(一).md

菜菜的并发编程笔记 |(五)线程安全问题以及Lock解决方案

记录一个查询兼容性的网站,String.replaceAll()兼容性报错

el-date-picker中自定义快捷选项picker-options,动态设置禁用日期

Tensorflow安装后ImportError: DLL load failed: 找不到指定的模块,且国内安装缓慢

Discussion on the outline of short video technology
随机推荐
可视化常见绘图(一)堆叠图
Tensorflow安装后ImportError: DLL load failed: 找不到指定的模块,且国内安装缓慢
Transformer的pytorch实现
jvm知识点汇总-持续更新
PyTorch 22. Pytorch common code snippet collection
连接orcale
PC端一次启动多个微信
简单易懂的子集dp
Machine vision series (02) -- tensorflow2 3 + win10 + GPU installation
Intelligent communication solution of Hainan Phoenix Airport
可视化常见问题解决方案(八)数学公式
免费开源农业物联网云平台(Version:3.0.1)
各类日期转化的utils
启动mqbroker.cmd失败解决方法
1D/1D动态规划学习总结
记录一个查询兼容性的网站,String.replaceAll()兼容性报错
数据分析入门 | kaggle泰坦尼克任务(四)—>数据清洗及特征处理
通过sparksql读取presto中的数据存到clickhouse
What is a closure?
学习笔记5-梯度爆炸和梯度消失(K折交叉验证)