这两天我在搭 PPT 自动化工作流,把同一段文字分别丢给 Claude code和 Codex要求生成可编辑的PPT,结果 Codex 做出来的,明显好看一截。
之前做文案 skill 的时候,觉得Claude code很牛——分析文字、理解结构、品牌调性的拿捏,基本挑不出毛病。
结果一转头手动做 PPT(可编辑的powerpoint),画风全变了。Codex无需过多额外提示词,生成效果就具有视觉一致性和基础美感。而claude code在没有过多额外提示词的情况下,生成的PPT内容视觉上差强人意。
最关键的差别,在 agent 框架的默认行为,也就是agentic harness。
Codex 默认就爱"跑完→瞅一眼→不满意→再改";Claude Code 呢,你不发话,它就"按你说的做完,停,等你下一步"。这不是谁能力差,是俩产品的脾气不一样。可 PPT 这种东西,本来就是"跑出来才知道丑不丑"——谁肯自己多改一轮,谁就赢了。好看不好看,往往就藏在那"多改的一轮"里。
Codex 背后是GPT 模型,而 GPT在图像和视觉这块儿,底子本来就很厚,本身就有很好的视觉规范。
它对"视觉规范"的理解,不只是嘴上知道"留白重要",而是更接近"它真能看出来这个留白对不对"。版式喘不喘得过气、字号有没有层级、色块的节奏、信息密度——这些没法一句话讲清楚、全靠看过海量画面"喂"出来的视觉直觉,GPT 这边攒得更多。
做文案 skill 的时候,我给 Claude 的是搭了老半天、塞满品牌规范的整套架构;做 PPT 的时候,我就丢了一段文字,啥都没说。同一个我,对俩工具的投入根本不是一个量级。Claude Code 在"指令少、给你自由发挥"的场景下其实挺保守的,你不明说"跑完自己看看、不行接着改",它就不会自作主张。说白了,我可能是拿Claude 的"默认收着",去比Codex 的"默认主动"。
原因一:框架够不够主动——harness 的自我修正习惯原因二:模型有没有视觉底子——GPT 系的图像积累这三个原因综合在一起,才有了这种PPT制作效果上的差异。
工具没有绝对的强弱,只看合不合适。重文字、重思考的动大脑🧠的活交给 Claude code,需要"自动跑+自己润色"、吃视觉直觉的工程性任务丢给 Codex。
我们不用找一个啥都会的全能员工,而要搭一支各有所长的小队。
前字节跳动飞书设计专家 · AI 时代一人公司操盘手▸字节跳动 | 世界 500 强 | 硅谷高科技企业