进入大数据时代后,我们工作中需要分析的数据,80% 以上的数据都是各种软件或系统导出的,其中有些系统导出的数据中经常会包含脏数据,需要经过数据清洗后才能使用。本节结合以下 3 种工作中最常出现的脏数据情况,介绍经典的数据清洗方法。
①原始数据中包含多余标题行。
②原始数据中包含多余空白行。
③原始数据中包含不可见字符。
1)删除多余标题行
某企业从系统导出的 2019 年全年销售数据如下图所示。
要想删除其中多余的标题行,只保留第一个标题行,应该如何操作才最快捷呢?
第一种情况:当导出数据不多,可以很轻松筛选出重复值的情况下,没啥好说的,在选中的重复项中,从第二行开始往下直接删除就行;见以下三步走。
第二种情况:当导出的数据有几百上千行的时候,要从第二行往下选,选呀选,要跑好远才能选完,这个时候,我们可以选中第二行的重复行,使用组合键Ctrl+Shift+↓,向下选中所有的重复行,然后右键删除即可。选中后删除步骤如上图。
所以这部分内容里,重点是要记得及时使用组合键Ctrl+Shift+↓。
2)删除多余空白行
从系统中导出的原始数据中除了包含多余标题行,还可能包含多余空白行,如下图所示。
由于 Excel 的筛选功能默认是按照连续区域筛选的,空白行会将原始报表分割为多个连续区域,所以如果这时还按上一案例的方法操作,就无法筛选出所有空白行了。在上表中,如果我们选择南京路店,就是下面的效果,相当于从第四行的空白行开始的内容,是没有被选中的。所以就没有办法一次性删除整个表格里的空白行,怎么办呢?
首先选择数据类别比较少的一列(如 B 列),按Ctrl+Shift+L组合键,使该列数据处于筛选状态,如下图所示。然后选出空白选项,然后一键删除。
这里又用到了上面知识点提到的Ctrl+Shift+↓组合键。如果空白行很多,可以先选中第二行,然后使用组合键Ctrl+Shift+↓向下选中所有,然后一键删除。这个知识点里,重点就是学会用Ctrl+Shift+L组合键。
3)删除不可见字符
除了包含多余标题行和多余空白行的情况,还会遇到包含不可见字符(如空格)的原始数据,下面结合案例讲解正确的清洗方法。
某企业从系统导出的招聘信息包含不可见字符,造成格式错乱,如下图所示。
我们按照左对齐排序,就很容易看出来,有很多单元格内容的前面是有空格的。虽然看起来,内容都是一样的,但是我们知道“李锐”跟“ 李锐”是不同的,急需我们清理无用空格。但是这些空格无色无味,我们一个个去识别比较费眼,所以我们可以使用组合键Ctrl+H,利用替代功能一键替换掉多余的空格。

操作如下:
替换后的效果如下图:
所以这个知识点里,用到的组合键是Ctrl+H。
好了,今天的内容是不是太水了?是有一点的。那咱下面来点需要反复记忆的。
如果数据报表的格式错乱,手动修改格式不仅效率低,还可能产生误操作而引起数据偏差,那下面就是快速规范报表格式的方法。
某企业的原始数据报表(左侧)和期望的规范格式(右侧)如下图所示。
怎么做到的?看下面的超强组合键。
- 选中 A 列,按
Ctrl+Shift+`组合键,将数据转换为常规格式。 - 选中 B 列,按
Ctrl+Shift+1组合键,将数据转换为千位分隔符格式;如果数据含有小数,则会将小数四舍五入只保留整数位。 - 选中 C 列,按
Ctrl+Shift+2组合键,将数据转换为自定义格式中的h:mm时间格式。 - 选中 D 列,按
Ctrl+Shift+3组合键,将数据转换为规范的日期格式。 - 选中 E 列,按
Ctrl+Shift+4组合键,将数据转换为货币格式。 - 选中 F 列,按
Ctrl+Shift+5组合键,将数据转换为百分比格式。
这些组合键的规律是:都是Ctrl+Shift键与Esc键下方的一排按键组合而成的。