欢迎来到爱乐透双色球走势表_爱乐透手机版苹果下载_爱乐透手机版安卓下载! 联系我们 网站地图

爱乐透双色球走势表_爱乐透手机版苹果下载_爱乐透手机版安卓下载

0379-65557469

爱乐透手机版安卓下载
全国服务热线
0379-65557469

电话: 0379-65557469
0379-63930906
0379-63900388 
0379-63253525   
传真: 0379-65557469
地址:洛阳市洛龙区开元大道219号2幢1-2522、2501、2502、2503、2504、2505室 

爱乐透手机版安卓下载

爱乐透双色球走势表-Pandas中的缺失值处理

作者:admin 发布时间:2019-05-14 20:06:24 浏览次数:165
打印 收藏 关闭
字体【
视力保护色

信任咱们在处理数据的时分常常会发现有一些数据的缺失,这个时分便会很头大,由于有时分的缺失的数据是本来就没有的,这些数据不论就好了,有的数据尽管没有,可是也能够依据一些数据推算出来这个数据是多少然后给它填上,可是有的数据缺失是随机缺失的彻底不知道应该怎样处理,所以呢今爱乐透双色球走势表-Pandas中的缺失值处理日我就带咱们了解一下数据中的缺失值以及怎么对缺失值进行处理。

  1. 读取数据

信任咱们在运用python读取数据的时分会呈现这种报错的状况。

这种状况是由于文件名中有中文,遇到这种状况第一种办法便是讲文件名改为英文,或许这样处理能够。

先运用open翻开,然后赋值给变量,然后封闭掉文件,运用被赋值的变量就能够了。

二、处理缺失值

1、什么是缺失值

俗话说知己知彼,攻无不克,在处理缺失值之前咱们首要要了解一下什么是缺失值? 直观上了解,缺失值表明的是“缺失的数据”。能够考虑一个问题:是什么原因形成的缺失值呢?其实有许多原因,实践生活中或许由于有的数据不全所以导致数据缺失,也有或许由于误操作导致数据缺失,又或许人为地形成数据缺失,可是首要的仍是分为机械原因和人为原因。

机械原因是由于机械原因导致的数据搜集或保存的失利形成的数据缺失,比方数据存储的失利,存储器损坏,机械故障导致某段时刻数据未能搜集(关于守时数据收集而言)。

人为原因是由于人的片面失误、前史限制或有意隐秘形成的数据缺失,比方,在市场调查中被访人回绝泄漏相关问题的答案,或许答复的问题是无效的,数据录入人员失误漏录了数据

缺失值从缺失的散布来讲能够分为彻底随机缺失,随机缺失和彻底非随机缺失。

  • 彻底随机缺失(missing completely at random,MCAR)指的是数据的缺失是随机的,数据的缺失不依赖于任何不彻底变量或彻底变量。随机缺失(missing at random,MAR)指的是数据的缺失不是彻底随机的,即该类数据的缺失依赖于其他彻底变量。彻底非随机缺失(missing not at random,MNAR)指的是数据的缺失依赖于不彻底变量本身。

缺失值从缺失值的所属特点来讲能够分为单值缺失,恣意缺失和单调缺失。

  • 单值缺失:假如一切的缺失值都是同一特点,那么这种缺失成为单值缺失。恣意缺失:假如缺失值归于不同的特点,称为恣意缺失。单调缺失:关于时刻序列类的数据,或许存在跟着时刻的缺失,这种缺失称为单调缺失

在Python中缺失值被以为是None、np.nan、NaT的方法。

原理性的东西咱们就说这么多,下面咱们进入代码部分,首要咱们人为的形成一些数据的缺失

然后咱们生成一列英豪们的生日的数据列

检查数据表的信息。

2、转化数据列的类型

这个时分咱们经过info()办法发现生日列的类型是object的,需要将生日列的类型经过to_datetime()转化为日期型

3、掩码提取空值

首要运用isnull()或许notnull()来检查是否缺失

Isnull()是将缺失值判别为True,非缺失值判别为False

Notnull()将缺失值判别为False,非缺失值判别为True

  • 将有空值的行提取出来

  • 反之将非空行的数据提取出来

  1. 掩码的其他用途

4.1、将不是地球的英豪提取出来

  • 首要将那个星球的列名改为星球

  • 然后将外星球的英豪提取出来。

4.2、将1980年之后出世的英豪提取出来

4.3、将1988年1月1号之前出世的英豪提取出来

5、丢掉缺失值

已然在数据中有缺失值了,常见的一种处理办法便是丢掉缺失值。运用 dropna 办法能够丢掉缺失值。

user_info.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)

seriese运用dropna比较简单,关于DataFrame 来说,能够设置更多的参数。

axis 参数用于操控行或列,跟其他不一样的是,axis=0 (默许)表明操作行,axis=1 表明操快穿宋妧作列。

how 参数可选的值为 any(默许) 或许 all。any 表明一行/列有恣意元素为空时即丢掉,all 一行/列一切值都为空时才丢掉。subset 参数表明删去时只考虑的索引或列名。thresh爱乐透双色球走势表-Pandas中的缺失值处理参数的类型为整数,它的作用是,比方 thresh=3,会在一行/列中至少有 3 个非空值时将其保存。

  • 一列数据中只需存在一个空值就删去掉

从成果能够看出,身高列和城市列都存在空值,这样就被删去掉了。

  • 一行数据中只需城市和性别呈现空值就删去掉

从成果能够看出,钢铁侠、索尔由于身高呈现空值而被删去这一行的数据,奇特博士由于城市呈现空值而被删去一行的数据,灭霸是年纪呈现了空值,可是年纪这一列并未做为删去的条件所以没有被删去掉数据。

三、填充缺失值

除了能够丢掉缺失值外,也能够填充缺失值,最常见的是运用fillna完结填充。Fillna这个姓名一看便是用来填充缺失值得嘛。

1、固定值填充

填充缺失值时,常见的一种办法是运用一个标量来填充。比方咱们能够将缺失的年纪都填充为0。

  • 将英豪们的身高填充为0

当然在身高列填充0显然是不标准的,咱们这儿只做演示运用,咱们在实践的处理数据的时分仍是要跟数据结合起来在挑选填充的标量。

2、上下文填充

除了能够运用标量来填充之外,还能够运用前一个或后一个有效值来填充。设置参数method=爱乐透双色球走势表-Pandas中的缺失值处理’pad’或method=’ffill’能够运用前一个有效值来填充。

设置参method='bfill'或method='backfill'能够运用后一个有效值来填充。

除了经过fillna办法来填充缺失值外,还能够经过interpolate办法来填充。默许状况下运用线性差值,能够是设置method参数来改变办法。

3、替换缺失值

现在咱们想一想,究竟什么才是缺失值呢,不要以为我前边说过的那些None、np.nan、NaT这些是缺失值,这些在Pandas中被以为是缺失值,可是呢,在咱们活生生的人眼中,某些异常值也会被当成缺失值来处理。

例如,在咱们的存储的用户信息中,假定咱们限制用户都是青年,呈现了年纪为40的,咱们就能够以为这是一个异常值。

再比方,咱们都知道性别分为男性(male)和女人(female),在记录用户性别的时分,关于不知道的用户性别都记为了“unknown”,很显着,咱们也能够以爱乐透双色球走势表-Pandas中的缺失值处理为“unknown”是缺失值。

除了这些,有时会也会呈现一些空白的字符串,这些也能够以为是缺失值。关于上面的这一系列问题,咱们能够运用replace办法来替换缺失值。

  • 假定咱们现在是一个地球流浪者爱乐透双色球走势表-Pandas中的缺失值处理收留安排,不允许外星人的存在,那么英豪现在现已存在了,打又打不过,可是又不能违背安排的规则,那怎样办呢,那就把这些惹不起的外星人界说成黑户,也便是空值,不知道他们的星球特点,睁一只眼闭一只眼。

  • 这个时分外星这个特点去掉了,可是阿斯加德和泰坦星显着不是一个地球的城市,所以咱们也要将城市特点换成NaN,可是分隔设置又太麻烦了,咱们就能够直接将城市作为一个映射的字典给替换掉。

  • 处理完外星人的事了之后现在回来来处理咱们地球人的事,这个时分发现黑寡妇的生日是1929年,显着是一个假的出世日期,已然生日是假的年纪应该也是假的,所以咱们需要将年纪更改为unknown,然后在界说为缺失值。

除了替换特定的值以外,咱们还能够运用正则表达式来替换,如将空白字符串替换为空值。

  • 将中年替换为中老年

4、运用其他目标填充

除了咱们自己手动丢掉、填充现已替换缺失值之外,咱们还能够运用其他的目标来填充。

例如咱们有两个用户年纪的series,其间一个由缺失值,别的一个没有,咱们能够额将没有缺失值的series的元素传给有缺失值的。

版权所有:洛阳市建设工程咨询有限责任公司 联系人:李经理 电话: 地址:洛阳市洛龙区开元大道219号2幢1-2522、2501、2502、2503、2504、2505室
版权所有 爱乐透双色球走势表 甘ICP备131488668号-6