当前位置:网站首页>数据分析入门 | kaggle泰坦尼克任务(三)—>探索数据分析
数据分析入门 | kaggle泰坦尼克任务(三)—>探索数据分析
2022-04-23 06:20:00 【猿知】
一、探索性数据分析
主要介绍利用Pandas进行排序、算术计算以及计算描述函数describe()的使用。
(1)创建一个模拟数据
#自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
index=['2', '1'],
columns=['d', 'a', 'b', 'c'])
frame
pd.DataFrame()
:创建一个DataFrame对象
np.arange(8).reshape((2, 4))
: 生成一个二维数组(2*4),第一列:0,1,2,3 第二列:4,5,6,7
index=['2, 1]
:DataFrame 对象的索引列
columns=['d', 'a', 'b', 'c']
:DataFrame 对象的索引行
(2)排序
frame.sort_values(by='c', ascending=True) #by参数指向要排列的列,sacending指向排序方式(升序/降序)
# 让行索引升序排序
frame.sort_index()
# 让列索引升序排序
frame.sort_index(axis=1)
# 让列索引降序排序
frame.sort_index(axis=1, ascending=False)
# 让任选两列数据同时降序排序
frame.sort_values(by=['a', 'c'], ascending=False)
对于两列进行排序时,按照先后顺序排列,如果前者中存在相等的数,则按后面一个列进行排序。
如:sort_values(by=['a','c'].ascending = [False, True])
这行意思是先按照a进行降序排列,当a中有相同值时按b升序排列。
(3)利用Pandas进行算术计算
frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
columns=['a', 'b', 'c'],
index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
columns=['a', 'e', 'c'],
index=['first', 'one', 'two', 'second'])
frame1_a
#将frame_a和frame_b进行相加
frame1_a + frame1_b
【提醒】两个DataFrame相加后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值NaN。
当然,DataFrame还有很多算术运算,如减法,除法等,有兴趣的同学可以看《利用Python进行数据分析》第五章 算术运算与数据对齐 部分,多在网络上查找相关学习资料。
# 调用 describe 函数,观察frame2的数据基本信息
frame2.describe()
''' count : 样本数据大小 mean : 样本数据的平均值 std : 样本数据的标准差 min : 样本数据的最小值 25% : 样本数据25%的时候的值 50% : 样本数据50%的时候的值 75% : 样本数据75%的时候的值 max : 样本数据的最大值 '''
''' 看看泰坦尼克号数据集中 票价 这列数据的基本统计数据 '''
text['票价'].describe()
数据分析入门 | kaggle泰坦尼克任务 系列持续更新,欢迎
点赞收藏
+关注
上一篇:数据分析入门 | kaggle泰坦尼克任务(二)—>pandas基础
下一篇:数据分析入门 | kaggle泰坦尼克任务(四)—>数据清洗及特征处理
本人水平有限,文章中不足之处欢迎下方评论区批评指正~如果感觉对你有帮助,点个赞 支持一下吧 ~
不定期分享 有趣、有料、有营养内容,欢迎 订阅关注 我的博客 ,期待在这与你相遇 ~
版权声明
本文为[猿知]所创,转载请带上原文链接,感谢
https://blog.csdn.net/Magic_Zsir/article/details/123561439
边栏推荐
- el-table的数据更新后,页面中数据未更新this.$forceUpdate()无效果
- 学习笔记6-几种深度学习卷积神经网络的总结
- 可视化常见绘图(四)柱状图
- Intelligent communication solution of Hainan Phoenix Airport
- Emergency air space integrated communication system scheme of Guangxi Power Grid
- Lead the industry trend with intelligent production! American camera intelligent video production platform unveiled at 2021 world Ultra HD Video Industry Development Conference
- 各类日期转化的utils
- 嵌入式相关面经(一)
- 记录一个查询兼容性的网站,String.replaceAll()兼容性报错
- 快速下载vscode的方法
猜你喜欢
ES6之箭头函数细谈
Urban emergency management - urban emergency communication command and dispatching system
pytorch:关于GradReverseLayer实现的一个坑
组合数求解与(扩展)卢卡斯定理
关于'enum'枚举类型以及结构体的问题。
记录一些npm 有关的问题(杂乱记录)
van-uploader上传图片实现过程、使用原生input实现上传图片
保洁阿姨都能看懂的中国剩余定理和扩展中国剩余定理
Patrol inspection intercom communication system in power industry
Mysql持久性的实现
随机推荐
小程序换行符\n失效问题解决-日常踩坑
PyTorch 20. Pytorch tips (continuously updated)
PC端一次启动多个微信
开发板如何ping通百度
PyTorch 11. Regularization
保洁阿姨都能看懂的中国剩余定理和扩展中国剩余定理
Hanlp分词器(通过spark)
null和undefined的区别
启动mqbroker.cmd失败解决方法
jvm知识点汇总-持续更新
可视化常见绘图(四)柱状图
[LNOI2014]LCA——树链剖分——多点LCA深度和问题
利用mysql-binlog恢复数据
go语言切片操作
go语言:在函数间传递切片
van-uploader上传图片实现过程、使用原生input实现上传图片
可视化常见问题解决方案(八)共享绘图区域问题解决方案
ES6之箭头函数细谈
ESP32学习-GPIO的使用与配置
组合数求解与(扩展)卢卡斯定理