| 场景描述 | 推荐工具 | 理由 (Why?) | 反面教材 (Don't) |
| 数据量 < 5万行,且需要手动修改具体数值(如修正拼写错误、填补备注)。 | Excel | 所见即所得。 鼠标点一下就能改,极其灵活,适合“一次性”的小修补。 | 用 Python 写代码去改一个错别字,效率太低。 |
| 数据量 > 100万行,存储在公司数据库中,需要多表连接 (Join)。 | SQL | 原生且极速。 数据库就在那里,让服务器去跑连接,不要把数据拉到本地再处理。 | 把两张百万行的表导出为 CSV,然后在 Excel 里用 VLOOKUP。电脑会直接卡死。 |
| 逻辑复杂的清洗(如:先拆分列,再分组求和,再过滤,再跟另一张表合并),且下周还要再做一次。 | Tableau Prep / Alteryx | 可视化流 + 可复用。 你能清晰看到每一步的变化,且流程图建好后,下周点一下“运行”即可,自动化满分。 | 在 Excel 里手动操作 50 个步骤,下周数据更新了,你忘了第 18 步做了什么,只能重头再来。 |
| 非结构化数据(如:提取网页文本、处理复杂的 Log 日志、正则表达式提取)。 | Python | 灵活性之王。 字符串处理是编程语言的强项,Pandas 和 Regex 能处理任何奇怪的格式。 | 试图用 Excel 的 MID, FIND, LEN 嵌套几十层公式来提取一个邮箱地址。 |
| 合并 50 个结构相同的 Excel 文件。 | Python / Power Query | 批量处理。 写个简单的循环(Loop)或者用文件夹读取功能,几秒钟搞定。 | 打开每一个文件,复制,粘贴到汇总表... 重复 50 次。 |