当前位置:网站首页>数据分析入门 | kaggle泰坦尼克任务(三)—>探索数据分析
数据分析入门 | kaggle泰坦尼克任务(三)—>探索数据分析
2022-04-23 06:20:00 【猿知】

一、探索性数据分析
主要介绍利用Pandas进行排序、算术计算以及计算描述函数describe()的使用。
(1)创建一个模拟数据
#自己构建一个都为数字的DataFrame数据
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
index=['2', '1'],
columns=['d', 'a', 'b', 'c'])
frame
pd.DataFrame():创建一个DataFrame对象
np.arange(8).reshape((2, 4)) : 生成一个二维数组(2*4),第一列:0,1,2,3 第二列:4,5,6,7
index=['2, 1] :DataFrame 对象的索引列
columns=['d', 'a', 'b', 'c']:DataFrame 对象的索引行
(2)排序
frame.sort_values(by='c', ascending=True) #by参数指向要排列的列,sacending指向排序方式(升序/降序)
# 让行索引升序排序
frame.sort_index()
# 让列索引升序排序
frame.sort_index(axis=1)
# 让列索引降序排序
frame.sort_index(axis=1, ascending=False)
# 让任选两列数据同时降序排序
frame.sort_values(by=['a', 'c'], ascending=False)
对于两列进行排序时,按照先后顺序排列,如果前者中存在相等的数,则按后面一个列进行排序。
如:sort_values(by=['a','c'].ascending = [False, True])
这行意思是先按照a进行降序排列,当a中有相同值时按b升序排列。
(3)利用Pandas进行算术计算
frame1_a = pd.DataFrame(np.arange(9.).reshape(3, 3),
columns=['a', 'b', 'c'],
index=['one', 'two', 'three'])
frame1_b = pd.DataFrame(np.arange(12.).reshape(4, 3),
columns=['a', 'e', 'c'],
index=['first', 'one', 'two', 'second'])
frame1_a
#将frame_a和frame_b进行相加
frame1_a + frame1_b
【提醒】两个DataFrame相加后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值NaN。
当然,DataFrame还有很多算术运算,如减法,除法等,有兴趣的同学可以看《利用Python进行数据分析》第五章 算术运算与数据对齐 部分,多在网络上查找相关学习资料。
# 调用 describe 函数,观察frame2的数据基本信息
frame2.describe()
''' count : 样本数据大小 mean : 样本数据的平均值 std : 样本数据的标准差 min : 样本数据的最小值 25% : 样本数据25%的时候的值 50% : 样本数据50%的时候的值 75% : 样本数据75%的时候的值 max : 样本数据的最大值 '''
''' 看看泰坦尼克号数据集中 票价 这列数据的基本统计数据 '''
text['票价'].describe()
数据分析入门 | kaggle泰坦尼克任务 系列持续更新,欢迎
点赞收藏+关注
上一篇:数据分析入门 | kaggle泰坦尼克任务(二)—>pandas基础
下一篇:数据分析入门 | kaggle泰坦尼克任务(四)—>数据清洗及特征处理
本人水平有限,文章中不足之处欢迎下方评论区批评指正~如果感觉对你有帮助,点个赞 支持一下吧 ~
不定期分享 有趣、有料、有营养内容,欢迎 订阅关注 我的博客 ,期待在这与你相遇 ~
版权声明
本文为[猿知]所创,转载请带上原文链接,感谢
https://blog.csdn.net/Magic_Zsir/article/details/123561439
边栏推荐
猜你喜欢

Patrol inspection intercom communication system in power industry

自定义钉钉机器人进行报警

华为云MVP邮件

USO technology was invited to share the technical framework and challenges of AI synthetic virtual characters at lvson2020 conference

Us photo cloud editing helps BiliBili upgrade its experience

使用compressorjs压缩图片,优化功能,压缩所有格式的图片

ES6之箭头函数细谈

Javscript gets the real suffix of the file

组合数求解与(扩展)卢卡斯定理

Discussion on the outline of short video technology
随机推荐
PyTorch 13. Nested functions and closures (dog head)
SQL练习第一题
免费开源智能充电桩物联网SAAS云平台
Statement of American photography technology suing Tianmu media for using volcanic engine infringement code
如何将进程绑定到指定的CPU上
vim+ctags+cscpope开发环境搭建指南
直观理解熵
Mysql隔离级别
hql求一个范围内最大值
UDP基础学习
获取字符格式的当前时间
JDBC连接池
免费开源农业物联网云平台(Version:3.0.1)
Transformer的pytorch实现
The people of Beifeng have been taking action
LATEX使用
Pycharm
小程序wx.previewMedia相关问题解决-日常踩坑
学习笔记7-深度神经网络优化
Object.create()原理,Object.create()规范,手写Object.create(),Object.create()用法