从 Excel 到 SCI,一张“全流程作战地图”带你搞定数据分析
核心痛点:收集了一年的数据都在 Excel 里,乱得像锅粥。不知道怎么清洗数据,也不知道分析的先后顺序。是先做回归?还是先画图? 本篇目标:构建“数据清洗 -> 基线描述 -> 单因素分析 -> 多因素分析 -> 模型评价”的标准流水线。数据清洗(Data Cleaning)—— 80% 的人都死在这一步统计软件报错,90% 的原因是你 Excel 没填对。 在把数据导入 SPSS 之前,请务必按照 “数据库格式” 整理 Excel。- 一行一例:每一行代表一个病人,绝对不能出现“张三”占了两行的情况。
- 一列一标:每一列代表一个指标(年龄、性别、血压),绝对不能把“血压”和“心率”写在同一个格子里(如 120/80, 75 )。
- 拒绝合并单元格:这是统计软件的死敌!Excel 里所有合并的单元格,全部拆开。
- 如果有空格,是用 999 代替,还是留空?(SPSS 建议留空,或者定义缺失值)。
- 按一下排序(Sort),看看有没有人的年龄写成了 150 ?收缩压写成了 10 ?
- (SPSS 虽然认汉字,但数字化能避免很多编码错误)。
拿到干净数据,别急着比差异。先做 Table 1(基线表),描述一下你研究的人群长啥样。- 正态分布 →→→ 描述为 Mean ± SD (均值 ± 标准差)。
- 偏态分布 →→→ 描述为 Median (IQR) (中位数 + 四分位间距)。
- 分类变量 →→→ 描述为 n (%) (例数 + 百分比)。
这一步产出:文章里的 Table 1: Baseline Characteristics of Patients 。单因素分析(Univariate Analysis)—— 谁有差异?现在开始分组比较(比如:死亡组 vs 存活组)。 这是我们在第 2 篇“决策树”里讲的核心内容。- 大样本(期望值>5) →→→ Pearson 卡方
- 小样本(期望值<5) →→→ Fisher 精确概率法
- 画图 + 比较 →→→ KM 曲线 + Log-rank 检验
这一步产出:筛选出 P < 0.05(或者 P < 0.1)的变量,这些是“嫌疑人”,准备送入下一步审判。多因素分析(Multivariate Analysis)—— 谁是真凶?这是提升文章档次的关键。单因素有差异不代表什么,多因素有差异才叫 “独立危险因素” 。1.选人:把第三步里算出来有差异的变量(P < 0.05),全部扔进多因素模型里。- 结局是二分类(死/活) →→→ Logistic 回归 →→→ 看 OR 值 。
- 结局是数值(住院天数) →→→ 多重线性回归 →→→ 看 βββ 值 。
- 结局是生存时间(活了多久) →→→ Cox 回归 →→→ 看 HR 值 。
这一步产出:文章里的 Table 2/3: Multivariate Analysis for Risk Factors 。 ( 注意:只有在这里活下来的变量,才能被称为 Independent Predictor。 )模型评价与绘图(Evaluation)—— 秀肌肉如果你的文章只是想找危险因素,到第四步就结束了。 但如果你想建立一个 预测模型 (比如:建立一个评分系统预测死亡风险),你还需要最后一步。- 算 AUC 值 (0.7 以上可用,0.8 以上优秀)。
- 画 校准曲线(Calibration Plot) 。
3.临床获益(Clinical Usefulness):——这一步产出:文章里的 Figure 2/3 (漂亮的 ROC 图)。 | | | |
|---|
| 0. 清洗 | | | |
| 1. 描述 | | Mean±SD / Median(IQR) / n(%) | Table 1 |
| 2. 比较 | | | Table 1 的 P值列 |
| 3. 回归 | | | Table 2 / 3 |
| 4. 评价 | | | Figure 1 / 2 |