
我经常在科研群里看到有博士生问:"有没有什么好用的 PPT skill?"
这个问题其实是很多科研人的日常,不是天天做惊艳全网的发布会 PPT。而是组会、文献汇报、开题、中期、答辩、课程展示、基金汇报。

这些 PPT 不一定要多炸裂。
但它要讲得清楚,要能改,要能交给导师看,要能在最后一分钟把某一页标题、图注、结论句改掉。
所以我一直在想:有没有一个工具,是真正为这种场景设计的?
这就是我做 EasySlides 的起因。
现在 AI 做 PPT,大概有几条路线。
通用产品路线。打开就能用,效果也不算差。但它不太懂科研材料。论文不是普通文章,里面有研究问题、方法、图表、数据、引用、实验边界。科研 PPT 不是把内容总结成几页就完事了,它要回答"这页结论凭什么讲"。
工程底座路线。像 PPT Master,在可编辑 PPTX、SVG 到 DrawingML、模板复用这些地方做了很重要的工程探索。EasySlides 吸收了这部分思路,并按学术叙事的逻辑去编排PPT。
图片生成路线。生成的画面确实可能很漂亮。但我不把那叫 PPT——因为它不可编辑。导师说"把标题改一下",你怎么办?从图片重建 PPT 理论上可以,但质量很难稳定。
HTML 路线。做网页展示确实很强。但科研、教学、团队协作的大多数场景——大家就是要一个 .pptx,要能在 PowerPoint 里改。

所以我最后选了那条看起来不那么性感,但最接近真实生产力的路:做可编辑 PPTX。
EasySlides 的核心目标很简单:
把论文、报告或网页等材料,变成结构清晰、风格一致、证据可追溯并且可以继续编辑的学术 PPT。
但这不是一个"PDF 摘要成几页"的过程。
这里有个我之前没有讲清楚的细节:文档入口本身很重要。
EasySlides 不是把 PDF 丢给模型,然后说"你总结一下"。在导入论文时,我给它接了 MinerU,会优先尝试做结构化解析,拿到 Markdown、版面 JSON、图表识别、表格识别和抽取出来的图片。如果没有 token 或者文档太大,再退回 PyMuPDF 这类更基础的解析方式。
这件事对科研材料很关键。
因为论文里最值钱的东西,很多时候不在一段顺滑的文字里,而在"图 3 的 caption 怎么说"、"正文哪一段引用了这张图"、"这个结果属于哪个方法边界"、"这个结论有没有数据支撑"。你只拿到一坨 OCR 文本,和你拿到一份带图表、版面、引用位置的结构化材料,后面能做的事情完全不一样。
所以它背后其实是三次转换:
从 PDF 到证据库。 通过 MinerU / PyMuPDF 等入口提取研究问题、方法、结果、图表、结论和引用位置。这一步的产物不是页面,而是可追溯的 source_pack。
从证据库到论证结构。 判断哪些信息服务于同一条主线,哪些适合比较、补充或放入附录。为每页确定一个主张、一个主要证据。
从论证结构到页面设计。 为每页绑定视觉表达——不是"有什么图就放什么图",而是"这张图能不能支撑这一页的主张"。
这是项目中一个核心的思考:
PPT 不是信息容器。PPT 是听众状态转移的路径。
你要把听众从"不知道为什么重要",带到"理解问题在哪里",再带到"相信你的方法和证据"。
这件事,比套一个模板重要得多。
EasySlides 不是从零造轮子。
我选择站在 PPT Master 这类项目的基础上继续做,是因为它们已经把"怎么稳定生成可编辑 PPTX"这件事往前推了一大步。SVG 到 DrawingML、模板复用、PPTX 打包,这些都是很重要的工程底座。
但科研 PPT 的难点,不只在"能不能生成一个 PPTX"。
更麻烦的问题在前面:论文怎么拆?图表怎么选?引用怎么保留?一页 slide 的 claim 凭什么成立?答辩、组会、文献汇报、基金汇报,听众状态和证据密度完全不一样,不能都套同一套叙事。
所以 EasySlides 做的不是把 PPT Master 的 prompt 改成"学术版",而是在它前面加了一层学术表达系统。
大概是这样:
PPT Master: 需求 → 设计规范 → 页面生成 → 导出 → 视觉 QAEasySlides: 科研材料 → 证据索引 → 场景路由 → 故事蓝图 → claim/evidence/citation → 模板绑定 → 学术 QA + 视觉 QA → 可编辑 PPTX也就是说,模板不是第一步。
模板只是最后被看见的那一层。真正麻烦的是,把科研材料和 PPT 模板都蒸馏成 Agent 能理解、能遵守、能被审查的规则。
比如项目里有 scenario_profiles.json 定义学术场景,deck_plan.json 锁每一页的角色、主张和证据,design_spec.md 与模板自己的 rules.md 锁视觉语言和可变范围,spec_lock.md 防止做着做着跑偏。

我自己还有一套专门处理 PPT 模板的 workflow:导入参考 PPTX,拆出 manifest、母版、版式、页面 SVG 和素材,再整理成事实驱动的 template brief。确认之后,才生成模板页面、规则文件和索引。
这个流程不是为了"抄一个外观"。
它是为了把真实 PPT 里的版式经验抽象成可执行的设计契约。哪些几何结构不能动,哪些文本和图片槽位可以替换,什么时候应该精确复用,什么时候应该退回普通模板或风格包,这些都需要先说清楚。
同样,审查也不是最后随便看一眼。
生成前要过 deck plan contract 和 Academic QA Gate,检查每一页有没有角色、主张、证据来源,结果页有没有图表或数据支撑。SVG 阶段要过 svg_quality_checker.py,导出后还要做 PPTX package validation、PPT-to-Markdown 文本检查,必要时还要渲染成预览图看页面有没有溢出、错位、变形。
这些东西读者平时不会看见。
但我自己很在意,因为它们决定了 EasySlides 到底是"能演示一下",还是"真的能交给科研工作者用"。
在初次问世的这个版本中,我先内置了3类学术模板,覆盖最常见的几种科研场景。

一是学术答辩类,目前有 defense_leftnav 和 defense_topnav 两种,分别对应经典的左导航栏模板和上导航栏模板。
为了契合常见的校徽颜色,我在模板设计文档中内置了4种常用配色,大家可以根据需要更换。

二是文献汇报类,目前有 literature_minimal 这种简洁模板。
三是学术通用类,目前有 academic_general 用于大多数学术交流场景, academic_scqa 用于更结构化的学术/技术报告,强调 SCQA 叙事结构,即情境(Situation)→ 冲突(Complication)→ 问题(Question)→ 答案(Answer)。
说这么多不如上手试试。
在 Codex 或 Claude Code 等 AI Agent 中一句话安装这个技能:
帮我安装这个skill:https://github.com/Rimagination/easyslides由于项目不小,大家也可以把项目手动打包下载下来,再让 Agent 安装。
案例一:SCI论文 → 14 页文献汇报
我用 EasySlides 把一篇 Hothouse Earth 相关的生态学论文做成了文献汇报 PPT。

生态学论文不是纯文字材料。里面有长时间尺度的背景,有 CO₂ 和温度变化,有反馈机制,有 tipping elements,还有大量需要保留原始语义的科学图表。
如果直接"摘要成几页",很容易变成空话——"气候变化具有复杂反馈机制",听着都对,但讲出来没信息量。
这个案例里,EasySlides 做的是把论文拆成一个可以讲的学术故事:从论文信息到核心概念,从 Holocene 背景到加速变化,从反馈机制到 tipping cascade,最后落到这项研究对地球系统科学的意义。
案例二:学位论文→ 答辩 PPT
这是一篇完整学位论文,材料更长、结构更复杂。

EasySlides 把它做成了 29 页的 thesis defense deck。
这个任务考验的不是"能不能做几页漂亮页面",而是能不能处理长论文里的章节结构、研究问题、理论背景、案例过程、访谈材料、分析框架、结论和参考文献。
答辩 PPT 不是文献汇报。它要让评委看到研究问题是什么、研究路线怎么走、材料从哪来、结论能不能被支撑。它要有章节导航,有逻辑层次,有最后能被追问的证据。
所以这个案例对我来说不是一个"能生成长 PPT"的 demo,而是在验证一件事:
如果 AI 要进入科研工作流,它不能只会写总结。它要知道什么是学术场景,什么是证据链,什么是答辩结构。
案例三:AI 自主调研→ 16页调研 PPT
这个场景比较适合一些相对轻松的内容,主打一个快速制作。
我们不一定要它自己去调研,仍然可以提供材料。但是作为一种可能性展示,我还是让 Codex 去调研了一下 OpenClaw 和 Hermes 的事儿。

AI PPT:《从 OpenClaw 到 Hermes:AI Agent 如何从聊天走向行动》
EasySlides 不是从零做的,它站在多个开源项目的肩膀上。
文档解析 — MinerU[1] 让我可以更好地处理 PDF 里的结构、图表和版面信息。科研材料不是普通长文,结构化入口会直接影响后面的证据组织质量。
工程底座 — ppt-master[2] 为可编辑 PPTX 生成提供了重要的工程框架。EasySlides 在此基础上发展了本地 SVG 到 DrawingML/PPTX 的生成链路。
学术表达 — academic-pptx-skill[3] 为结构化论证和引用规范提供了重要参考。
叙事编排 — humanize-ppt[4] 贡献了 Audience-State-Transfer 的思想——PPT 是听众状态转移的路径,这直接启发了 EasySlides 的 SCQA 叙事设计。
风格治理 — guizang-ppt-skill[5] 启发了对风格约束包和模板治理方式的组织。EasySlides 在这个方向上继续往前走了一步,把模板拆成 design spec、rules、layout contract 和可审查的页面模块。
论文流程 — paper-ppt-skill[6] 与 literature-report-ppt-builder[7] 为论文汇报和文献报告提供了有价值的思路。
EasySlides 在上述启发的基础上继续扩展新增的代码、模板、规则与项目组织。除非原项目另有说明,以上致谢不代表相关项目对 EasySlides 的正式背书。
真正懂科研的 PPT skill,还得是科研人来做。
我的目标很简单,不求 PPT 做得多惊艳,但求节省每一位科研工作者宝贵的时间。
当然,你拿到 PPT 之后仍然可以通过 AI 生图等方式让它变得更加高大上。但于我而言,让 AI 把材料梳理成基本能用的可编辑 PPT 才是重点。
初创项目一定有不成熟的地方。有些页面还有 AI 味,有些图表还需要打磨。请大家给我一点时间。
如果你也被学术 PPT 折磨过,不妨去 GitHub 给我点个 star[8]:
https://github.com/Rimagination/easyslides
最后,欢迎大家积极反馈。