首页 今日头条正文

射雕英雄传83,手把手教你做一个“渣”数据师,用Python替代老情人Excel,宽带测速

大数据文摘出品

来历:medium

编译:张大笔茹

十年前,你说你是做数据的,咱们的反响便是——用Excel做做表。

现在,要成为一个合格的数据剖析师,你说你不会Python,大概率会被江湖人士嘲笑。

Medium上一位博主就同享了他一步步用Python替换掉十年前的“老情人”Excel的进程,一同来学习一下吧!

在Excel成为我的“初恋”十年之后,是时分找一个更好的“另一半”了,在这个技能一日千里的年代,更好更薄更轻更快处理数据的挑选就在身边!我期望用Python代替简直一切的excel功用,无论是简略的筛暗石阅览网选仍是相对杂乱的创立并剖析数据和数组。

引诱女
阴啼

我将展现从简略到杂乱的核算使命。强烈建议你跟着我一同做这些过程,以便更好地了解它们。

拟写此文的创意来自于人人可拜访的免费教程网站,我曾仔细阅览并一向严格遵守这篇Python文档,链接如下,相信你也会从该网站中找到许多干货。

GitHub链接:

https://github.com/ank0409/Ditching-Excel-for-Python

一、将excel文件导入Panda DataFrame

初始过程是将excel文件导入DataFrame,以便咱们履行一切使命。我将演示支撑xls和xlsx文件扩展名的Pandas的read_excel方射雕英雄传83,手把手教你做一个“渣”数据师,用Python代替老情人Excel,宽带测速法。read_csv与read_excel相同,就不做深化评论了,但我会同享一个比如。

虽然read_excel办法包含数百万个参数,但咱们只评论那些在日常操作中最常见的那些。

咱们运用Iris样本数据集,出于教育意图,该数据集可在线免费运用。

请依照以下链接下载数据,并将其放在与存储Python文件的同一文件夹中。

https://archive.ics.uci.edu/ml/datasets/iris

1、榜首步是在Python中导入库

能够运用以下代码将电子表格数据导入Python:

pandas.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, parse_cols=None, usecols=None, squeeze=False, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skiprows=None, nrows=None, na_values=None, keep_default_na=True, verbose=False, 冷宫弃后很绝情parse_dates=False, date_parser=None, thousands=None, comment=None, skip_footer=0, skipfooter=0, convert_float=True, mangle_dupe_cols=True, **kwds)

有许多可用的参数,咱们来看一下最常用的一些参数。

2、一些重要的Pandas r射雕英雄传83,手把手教你做一个“渣”数据师,用Python代替老情人Excel,宽带测速ead_excel选项

假如默许运用本地文件的途径,用“\酷7k7e”表明,接受用“/”表明,更改斜杠能够将文件增加到Python文件地点的文件夹中。假如需求有关上述内容的具体阐明,请参阅以下文章。

http射雕英雄传83,手把手教你做一个“渣”数据师,用Python代替老情人Excel,宽带测速s://medium.com/@ageitgey/Python-3-quick-tip-the-easy-way-to-deal-with-file-paths-on-windows-mac-and-linux-11a072b58d5f

用P川菜烹饪大师刘冲ython扫描目录中的文件并挑选想要的:

3、导入表格

默许情况下,文件中的榜首个作业表将按原样导入到数据框中。

运用sheet_name参数,能够清晰要导入的作业表。文件中的榜首个表默许值为0。能够用作业表的姓名,或一个整数值来当作作业表的index。

4、运用作业表中的列作为索引

除非清晰说到,不然索引列会增加到DataFrame中,默许情况下从0开端。

运用index_col参数能够操作数据框中的索引列,假如将值0设置为none,它将运用榜首列作为index。

5、略过行和婉碧诗列

默许的read_excel参数假定榜首行是列表称号,会主动兼并为DataFrame中的列标签。运用skiprows和header之类的函射雕英雄传83,手把手教你做一个“渣”数据师,用Python代替老情人Excel,宽带测速数,咱们能够操作导入的DataFrame的行为。

6、导入特定列

运用usecols参数,能够指定是否在DataFrame中导入特定的列。

这仅仅个开端,并不是一切的功用,但已满足你“尝鲜”了。

二、检查的数据的特点

现在咱们有了DataFrame,能够从多个视点检查数据了。Pandas有许多咱们能够运用的功用,接下来将运用其间一些来看下咱们的数据集。

1、从“头”到“脚”

检查榜首行或最终五行。默许值为5,也能够自定义参数。

2、检查特定列的数据

3、检查一切列的姓名

4、检查信息

检查DataFrame的数据特点总结:

5、回来到DataFrame

6、检查DataFrame中的数据类型

三ca4529、切割:即Excel过滤器

描述性陈述是关于数据子集和聚合的,当需求开始了解数据时,一般运用过滤器来检查较小的数据集或特定的列,以便更好的了解船袜小兔数据。

尹澈

Python供给了许多不同的办法来对DataFrame进行切割,咱们将运用它们中的几个来了解它是怎么作业的。

1、检查列

包含以下三种首要办法:

  • 运用点符号:例如data.column_na患组词me
  • 运用方括号和列称号:数据[“COLUMN_NAME”]
  • 运用数字索引和iloc挑选器:data.loc [:,'column_number']

2、检查多列

3、检查特定行

这儿运用的办法是loc函数,其间咱们能够指定以冒号分隔的起始行和完毕行。留意,索引从0开端而不是1。

4、一起切割行和列

5、在某一列中挑选

6、挑选多种数值

7、用列表挑选多种数值阳青青

8、挑选不在列表或Excel中的值

9、用多个条件挑选多列数据

输入应为列一个表,此办法相当于excel中的高档过滤器功用:

10、依据数字条件过滤

11、在Excel中仿制自定义的挑选器

12、兼并两个过滤器的核算成果

13、包含Excel中的功用

14、从DataFrame获取特定的值

如魔鬼池死了多少人果想要用特定值检查整个DataFrame,能够运用drop_duplicates函数:

15、排序

对特定列排序,默枫树精灵希尔夫认升序:

四、核算功用

1、描述性核算

描述性核算,总结数据集散布的会集趋势,涣散程度和正态散布程度,不包含NaN值:

描述性核算总结:

五、数据核算

1、核算某一特定列的值

输出成果是一个系列。称为单列数据透视表:

2、计数

核算每列或每行的非NA单元格的数量:

3、求和

按行或列求和数据:

为每行增加总列:

4、将总列增加到已存在的数据集

5、特定列的总和,运用loc函数

或许,咱们能够顾非烟用以下办法:

6、用drop函数删去行

7、核算每列的总和

以上,咱们运用的办法包含:

  • Sum_Total:核算列的总和
  • T_Sum:将系列输出转换为DataFrame并进行转置
  • Re-index:增加短少的列
  • Row_Total:将T_Sum附加到现有的DataFrame

8、多条件求和,即Excel中的Sumif函数

9、多条件求和

10、求算术平均值

11、求最大值

12、求最小值

13、Groupby:即Excel中的小计函数

六、DataFrame中的数据透视表功用

谁会不喜欢Excel中的数据透视表呢?它是剖析数据的最佳办法,能够快速阅读信息,运用超级简略的界面切割数据,制作图表,增加核算列等。

现在没有了作业界面,必须用编写代码的办法来输出成果,且没有生成图表功用,但需求咱们充沛了解数据透视表的精华。

简略的数据透视表,显现SepalWidth的总和,队伍中的SepalLength和列标签中的称号。

现在让咱们试着杂乱化一些:

用fill_value参数将空白替换为0:

能够运用dictionarsylar刘嘉俊y函数进行独自核算,也能够屡次核算值:

七、Vlookup函数

Excel中的vlookup是一个奇特的功用,是每个人在学习怎么求和之前就想要学习的。会用vlookup是很诱人的,因为输出成果时像变魔术相同。能够十分自傲地说它是电子表格上核算的每个数据的支柱。

不幸的是Pandas中并没有vlookup功用!

因为Pandas中没有“Vlookup”函数,因而Merge用与SQL相同的备用函数。有四种兼并选项:

  • left——运用左边DataFrame中的同享列并匹配右侧DataFrame,N/A为NaN;
  • right——运用右侧DataFrame中的同享列并匹配左边Dat射雕英雄传83,手把手教你做一个“渣”数据师,用Python代替老情人Excel,宽带测速aFrame,N/A为NaN;
  • inner——仅显现两个同享列堆叠的数据。默许办法;
  • outer——当左边或右侧DataFrame中存在匹配时,回来一切记载。

以上或许不是解说这个概念的最好比如,但原理是相同的。

整个教程到这儿就完毕啦,正如咱们知道的那样,“没有完美的教程荀勖存在”,这位小哥的教程必定也是不完美的,可是咱们能够自己着手试试,假如咱们还知道有什么Pyt射雕英雄传83,手把手教你做一个“渣”数据师,用Python代替老情人Excel,宽带测速hon能够代替Excel的当地,欢迎留言评论!

相关报导:

https://towardsdatascience.com/repl唐传奇之列acin萝莉圣片g-excel-with-Python-30aa060d35e

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

奥迪s8,疑似红米8A入网:水滴屏规划 5000mAh大电池,007

  • 手机密码忘了怎么办,新疆交建(002941)龙虎榜数据(09-12),一览英才网

  • 陈瑶,瑞达期货:橡胶缩量 重心下移,降