摘要:做科研最痛苦的不是跑实验,而是画Methodology Diagram。北大与Google联合推出的PaperBanana多智能体框架,试图用AI全自动解决这一痛点。本文深度解析其背后的5个Agent协作机制及实战效果。
做AI研究最痛苦的瞬间是什么?
绝不是Model报错,也不是Loss降不下去,而是当你终于跑完实验、写完代码,准备写Paper时,面对那几张必须要有、但又极难画的 Methodology Diagram(方法论示意图)。
为了画出一张看起来像样的图,我们往往需要在 PPT、Visio、Python Matplotlib 之间反复横跳。配色丑、排版乱、逻辑线画不直……改了十几版还是被导师嫌弃“不够 Professional”。
最近,北京大学(PKU)和谷歌(Google)的研究团队联手整了一个大活儿,发布了名为 PaperBanana 的自动化绘图框架。
简单来说,这玩意儿就是为了拯救咱们的“画图焦虑症”而生的。它直接把大语言模型和图像生成技术结合,能够全自动生成高质量的学术插图。
PaperBanana 并不是单一的模型,而是一个多智能体协作系统。团队设计了5个拥有不同“职业技能”的AI Agent,像一条流水线一样协同工作:
1. 🔍 灵感猎手 这是第一步。它负责根据你的需求,去检索现有的高质量论文插图作为参考。它解决了“不知道画什么样”的问题。
2. 🧠 规划大师它是大脑。它读取论文的正文和图表标题,然后将这些晦涩的学术语言转化为详细的绘图指令和布局规划。
3. 🎨 美学顾问 负责“颜值”。它从参考图中提取配色方案、字体风格和排版规范,确保生成的图看起来是“学术风”而不是“卡通风”。
4. 🖌️ 执行画师负责落地。如果你需要流程图,它调用图像生成模型;如果你需要统计图表,它直接写代码来绘制。
5. 🧐 毒舌评审 这是质量保证的关键。图画好后,这个Agent会跳出来“找茬”,对比原意检查有没有画错,并提出修改意见,进行迭代优化。
为了证明自己不是“PPT造车”,团队特意搞了个评测基准 PaperBananaBench
他们从 NeurIPS 2025 的论文中硬核筛选了292张高质量示意图作为考题。
结果显示,PaperBanana 在以下四个维度上,全面碾压了目前的 Baseline 模型:
准确性
简洁性
可读性
美观度
看完论文,发现这工具还有两个极其实用的隐藏玩法:
哪怕你已经用PPT画了个草图,但配色土得掉渣,PaperBanana的“Stylist Agent”也能介入。
它能保留你的逻辑结构,强行植入顶级期刊的配色和排版风格,瞬间把“草稿”变成“发表级”插图。
当然,作为科研人员我们要客观。PaperBanana 目前也不是完美的。
在处理极其复杂的节点连接时,它偶尔会“眼花”。比如A应该连B,结果连到了C,或者凭空多出几条线。这属于底层视觉模型的感知局限,目前的“评审Agent”有时候也查不出来。
建议: 生成完之后,人工最后 Check 一遍逻辑连线是必须的。
重磅附加福利,扫码加微领取👇
附加福利一:
回复“中中中”
“免费领取26国自然大礼包”
附加福利二:
回复“学术交流群”
“免费加入专属学术交流群”