数据探索者,你好。
质量工程师、工艺工程师、甚至研发人员,几乎每天都要面对缺失值、重复行、异常值。
数据清洗,往往占用了数据分析80%的时间。
今天,我们用JMP软件演示——如何把这80%的耗时,缩短到几分钟。
01 一个典型的数据清洗场景
假设你收到了这样一份原始数据表:
存在缺失值
存在重复记录
存在异常值(例如压力值显示为负数)
过去,你可能需要逐一筛选、排序、删除、替换……
而在JMP中,以上所有问题都可以在几个菜单中批量解决。
02 JMP三步搞定脏数据
第一步:快速定位缺失值
打开JMP,导入你的Excel或CSV数据。
点击菜单栏 “行” → “行选择” → “选择缺失值单元格”。
JMP会立即高亮所有缺失数据的位置,并在左下角状态栏显示缺失值总数。
你既可以直接删除缺失行,也可以使用 “列” → “重新编码”功能,一键用均值、中位数或特定值批量填补缺失值——不需要写任何公式。
第二步:一键删除重复行
点击 “表” → “汇总”。
在弹窗中,勾选 “链接到原始数据表”及 “按组计算重复行数”。
也可以直接使用 “表” → “剔除重复行”,选择关键列作为判断依据。
点击确定:JMP自动剔除完全重复的记录,并生成一份干净的数据表。
第三步:异常值可视化标记
JMP的图形引擎比传统表格强大得多。
选中数值列,点击 “图形” → “图形生成器”。
拖拽变量到Y轴,选择 “箱线图”。
JMP会自动绘制箱线图,超出上下限的点会被自动标记为红点(异常值候选)。
直接右键点击这些红色异常点 → “行标记”→ 一键选中所有异常行,再决定是剔除还是替换。
整个过程,不写一行公式或代码。
03 从一个真实对比看效率
04 不仅仅是清洗
JMP的优势不仅在于清洗速度快。
清洗后的数据可以直接拖拽进入 “图形生成器”,几秒钟生成出版级的数据可视化图表——不需要像Excel那样反复调整颜色、字体和坐标轴。
这与我们第一篇中提到的理念一致:
减少50%研发时间、83%数据处理时间、40%产品缺陷
清洗,正是那“83%数据处理时间”中的重要一环。
05 你能获得什么?
👉 需要30天全功能试用版?
私信回复 【试用】,我们将为你提供JMP官方授权试用版。
联系方式
#JMP #数据分析 #数据清洗 #质量工程 #中鑫国睿