当前位置：首页>PPT>PPT分享 | Vibe Math:AI 如何颠覆数学研究

PPT分享 | Vibe Math:AI 如何颠覆数学研究

2026-06-27 00:09:35

这是我去沙河高教园参加的首届沙河高教园区玖耀里学术酒吧交流活动，请到了微软亚洲研究院的研究院周子喻老师，主要讲解利用各种AI工具进行数学证明的方法，和前沿AI工具的应用，比较对我的胃口，所以很积极的参与了，现场除了结识了也喜欢二次元的周子喻研究院外，还认识了周围北邮北航等学校的新朋友，总的来看是很有收获的，希望以后有更多这样的活动在沙河举办。

一、从 Vibe Coding 到 Vibe Math

"Vibe Coding" 由 Andrej Karpathy 于 2025 年提出，指程序员完全交由 AI 处理代码实现细节、人类仅提供方向意图的新型编程范式。数学研究能否实现类似的"Vibe Math"？传统观点认为数学比编程更难 AI 化——证明正确性难以自动验证、需要深层创造性思维、每个问题都具有独特性。然而，形式化验证（Formal Verification）的出现改变了这一判断：它将数学证明转化为计算机可逐步检查的代码，编译通过即证明正确，编译失败则暴露逻辑漏洞。形式化验证相当于数学的"编译器"，使 Vibe Math 成为可能。

二、AI 数学能力的飞跃

AI 的数学能力在两年内实现了从"做不了竞赛题"到"金牌水平"的跨越。2024 年 7 月，AlphaProof 与 AlphaGeometry 2 获得 IMO 银牌；2025 年 7 月，Gemini Deep Think 达到 IMO 金牌标准并斩获 ICPC 世界总决赛金牌。在基准测试方面，MATH benchmark 上 o3 达到 96.4%，FrontierMath（由 60 余位研究数学家出题、含 Fields 奖得主审核的前沿问题集）上，模型表现从 2024 年 11 月的不足 2% 跃升至 2026 年 3 月的 50%。

更具里程碑意义的是，AI 开始解决真正的数学开放问题：Erdős Problem #728（阶乘整除猜想）由 Barreto 与 ChatGPT-5.2 给出证明并已在 Lean 中形式化验证；Will Brian 与 Paul Larson 提出的 Ramsey 超图猜想（作者 7 年未解）被 GPT-5.4 Pro 完整证明。FirstProof 挑战中，11 位顶级数学家（含 Fields 奖得主 Martin Hairer）出题 10 道研究级难题，DeepMind 的 Aletheia 系统解出 6/10，其架构融合 Gemini Deep Think、自然语言验证器与搜索浏览能力，已自主扫描 700 个 Erdős 开放问题并解决 4 个。

三、形式化验证

形式化数学的核心思想是将证明写成计算机可检查的代码，Lean（Microsoft Research）、Coq、Isabelle 等工具充当"编译器"。其重要性源于数学论文的错误率问题——Fields 奖得主 Voevodsky 曾发现自己 1989 年的论文存在严重错误，这促使他投入 Univalent Foundations 和 Coq 形式化，并坦言"我再也无法信任非形式化的证明"。Mathlib 作为 Lean 4 的数学标准库，已积累 100 万+ 行代码，覆盖代数、分析、拓扑、数论等领域，相当于一部机器可读的数学百科全书。

形式化验证的重大成就包括：2005 年四色定理（Coq）、2017 年 Kepler 猜想（HOL Light + Isabelle）、2023 年 PFR 猜想（Tao 等，3 周完成）、2026 年 E₈ 球填充与 24 维 Leech 格（Math Inc. 的 AI 系统 Gauss 独立完成）。自动形式化的意义在于让 AI 承担繁琐的代码转换工作——自然语言证明仅需 3 行，Lean 4 形式化却需约 10 行，AI 可将前者自动翻译为后者并通过编译器验证，形成"生成→验证→迭代修复"的闭环。

四、技术演进：从专用模型到 Agent

AI 数学推理经历三个时代。**时代一（2020–2023）**为专用模型加树搜索：GPT-f 首次用 Transformer 做 Metamath 证明，AlphaProof 以 AlphaZero 式自我对弈获 IMO 金牌，核心公式为"推理能力 ≈ 模型质量 × 搜索预算"，但缺乏高层证明规划。**时代二（2023–2025）**为 Informal 与 Formal 混合：Draft, Sketch, and Prove 范式先用自然语言"打草稿"再映射为形式化代码，DeepSeek-Prover-V2 在 miniF2F 达 88.9%，核心洞察是"80% 的难度在找到正确策略，而非写 tactic"。**时代三（2025–）**进入 Agent 工作流：从"一个模型解一道题"转向"多角色协作"，Plan Agent 负责分析路径、Informal Agent 生成草稿、Lean Agent 翻译代码并调用 Mathlib 搜索等工具，代表系统包括 Archon、Gauss 与 Aletheia。三个时代并非替代关系，而是叠加演进。

五、AI 发现新数学

AI 发现新数学的范式从 2021 年的 ML 引导直觉（Davies 等，Nature），演进至 2024 年的 LLM 加进化搜索（FunSearch 发现 cap set 问题新下界），再到 2025 年的 Agent 进化代码库（AlphaEvolve 改进 70 余个数学常数的已知界）。共同模式为：AI 提出候选→自动评估验证→迭代优化→人类数学家确认。AI 不直接证明定理，而是帮助数学家"看到"数据中隐藏的规律。

六、Vibe Math 工作流与未来展望

未来数学家的工作流将呈现"Advisor 模式"：人类引导 AI 进行迭代式 Vibe Proving 循环，采用 Balanced Prompting（同时要求证明与反驳以防止确认偏误）、Code-assisted Verification 等策略。自动形式化工作流分为六步：AI 分析 LaTeX 提取定理→搜索 Mathlib 复用定理→生成形式化代码→Lean 编译器验证→失败则分析修正→交付零错误的 PR 或论文。人类的角色从"写证明"转向"选题、审查、填补最难的 gap"。

关于"数学家是否会被替代"，Terence Tao 的观点颇具代表性："AI 不会取代数学家，但使用 AI 的数学家将取代不使用 AI 的数学家。"数学的价值既在于结果，也在于理解的过程——AI 正在改变两者的比例。当前（2024–2026）竞赛解题、自动形式化、初步研究辅助已实现；近期（2026–2028）将走向端到端论文形式化与 AI-human 协作常态化；远期（2028+）则可能迎来自主数学发现、形式化成为发表标准、数学教育革命等深层变革。Vibe Math 不是科幻，它正在发生——问题不是 AI 能不能做数学，而是我们如何与 AI 一起做数学。