往往我们拿到的业务源数据是五花八门的,不能直接使用,那怎么对数据进行处理,处理成什么样的数据使其可以方便我们使用呢?下面会通过实际案例回答这两个问题。
问题一:处理成什么样的数据?
处理成标准数据。
标准数据:
含义:
标准数据是指经过统一规范、明确口径、固定格式和质量校验,能够在企业内部跨部门、跨场景复用的结构化数据。它是相对 “原始数据”“杂乱数据” 而言的标准化产物,核心是消除数据的歧义性、不一致性,让数据具备可理解、可对比、可复用的属性。
简单来说,标准数据就是完成了规范化处理的源数据。
作用:
标准数据的要求和要点:
比如:标准数据中,不允许出现合并单元格,合并单元格python识别不了,数据处理也也没有独立单元的数据处理起来方便简单。
问题二:怎么把数据清洗成标准数据?
整体思路:
今天我们拿到了公司6月的销售数据,结合我们之前已经有的4月和5月的销售数据和销售情况报表,我们现在要先对6月这些新数据进行清洗,使数据口径统一(将数据清洗为标准数据),才能进行报表的制作。
数据清洗目标:
目标是清洗成和之前5月的报表一样的数据,包含下面这些数据列并一一对应(统一口径)
实际案例操作:
数据备份(养成备份习惯!!)
将源数据的子表复制为另一个子表,命名为“备份”,并隐藏起来,完成同一文档下的数据备份。
2. 数据清洗-单元格处理
3. 数据清洗-数据提取
通过公式将“产品类型”和“期数”的信息提取出来
完成之后,借用筛选器,检查公式结果是否正确
4. 数据清洗-数据匹配提取
接下来是匹配销售的业务架构信息,完善数据表。
其余的也是根据逻辑,通过公式去清洗出来(下图示例)
完成之后,借用筛选器,检查公式结果是否正确
检查完毕,保存处理好的标准数据(保存文档)

5. 数据导入-导入报表
为了避免因为复杂的处理导致源数据变动,要养成一个习惯:在源数据被处理为标准数据之后,复制时要仅粘贴为值,只保留这次处理的最终结果
如何导入处理好的标准数据到之前做好的报表中?
数据粘贴之后,记得更新月筛选器的选项【数据验证】
6. 数据导入-异常处理(debug)
数据导入报表之后,会发现报表的数据有异常。
debug思路:
4,5月的数据和报表呈现都没有问题,说明原有的计算逻辑和数据引用是没问题的,那么问题就出现在新导入的数据上。
通过筛选器检查,和表头比对,找到出错的地方(数据结构不一致,格式等),进行更正。更正之后再将修成好的数据重新导入6月数据(删除之前导入的6月数据)即可。
Q:6月的“成交日期”列没有被识别为日期怎么处理?
看下数据的格式是文本还是数值
怎么分辨数据是文本还是数值?
在未设置对齐方式的情况下,靠左对齐是文本,靠右对齐是数值。
而日期是特殊的数值,默认情况下也是靠右显示。
怎么把文本型日期修改为数值型日期?
分列功能将文本型日期强制修改为数值型日期
【数据】-【数据工具】-【分列】-【默认选分隔符号】-【下一步】-【下一步】-【选择日期】-【完成】处理完,日期数据会自动靠右对齐。
完成!展示!
以上就完成了我们本次报表数据清洗的拆解和学习。