【聚看点】陶哲轩用GPT5-Pro跨界挑战!3年无解的难题,11分钟出完整证明
2025-10-11 15:39:50来源:量子位
梦晨 鹭羽 发自 凹非寺
量子位 | 公众号 QbitAI
(资料图)
陶哲轩与GPT-5 Pro这对搭档再大发神威,解决了一个3年无人解决的难题。
而且是 “不太在自己专业范围内”的问题:微分几何领域的开放问题。
要知道,陶哲轩擅长的分析、数论、组合学等研究的往往是整数、函数、算子的性质。而微分几何更侧重于流形的性质,常用的工具也很不一样。
陶哲轩只是按自己直觉给了一个大致方向,GPT-5 Pro就从复杂计算到严谨证明一气呵成,帮助陶哲轩捕捉关键逻辑,突破传统思维局限。
甚至在AI帮助下最终发现自己的直觉有误,但通过这个过程更好理解了问题。
有了这次跨界解题的经验,陶哲轩对AI在学术研究上的作用也有了新的思考,他总结到:
AI从计算到证明一气呵成AI在小尺度上很有用,中尺度上有些无益,大尺度上又有帮助。
先来看看原始问题,是3年前就在mathoverflow上提出的:
设一个三维空间中的光滑拓扑球面围成的区域,且曲面的主曲率绝对值不超过1,那么它包围的体积是否至少等于单位球的体积?
陶哲轩最初的思路是将问题限制在星形区域上,借助积分不等式推进。但他的微分几何有些生疏,所以请AI帮他进行这些计算。
结果GPT-5 Pro思考了 11分18秒,不仅完成了所有计算,还直接给出了星形情况下问题的完整证明。
证明过程运用了各种不等式和恒等式,其中有些陶哲轩熟悉(比如Stokes定理和Willmore不等式),也有一个他也第一次接触的Minkowski第一积分公式。
有了这些不等式,加上算术-几何平均不等式,星形情况的证明实际上就是一行论证。
到目前为止,一切顺利。
接下来他需要验证证明的各个步骤,但网络上没有找到有用的资源。
再次询问AI后,直接 得到两个令他满意的证明:一个是按照他建议使用散度定理的路线,另一个是基于他没想到的流方法。
通过AI的计算和证明,陶哲轩打算将其视为一个扰动椭圆偏微分方程问题,AI在这个思路上表现也良好。
虽然在估计一个扰动非线性项时出现了轻微的错误,但并非无法修复。而且AI还主动指出一个特殊情况其实又能回到星形的结果。
成功地用偏微分方程扰动理论的方法,解决了 当曲面形状与单位球面差距不大(Small Data)时的情形。
但真正困难且未解决的,是 当曲面形状与球面差距巨大(Large Data)时的问题。
陶哲轩意识到可以用将问题简化为一个大型有限计算,但AI用这个方法给出的结果非常混乱且缺乏启发性,本质上是对所有可能形状的穷举。
最终陶哲轩发现他设想的数值方法或许可以在有限的时间内解决所有给定条件的特殊情况,但无法处理一般情况,但AI只是按照提问照做了。
最后总结一下:虽然问题最终还是没有完全解决,但在AI的帮助下陶哲轩对这个问题的理解深入了很多。
陶哲轩的思考:AI工具的多尺度价值
虽然解题告一段落,但陶哲轩的思考还在继续。
回顾整个解题过程,AI在 “小尺度”问题上表现得很好,只犯了一些小错误,并贡献了一些文献中已有的,但陶哲轩之前并不知道的有用想法。
但是要想进一步推进这个问题,就需要真正的微分几何专家的帮助了。
在 “中等尺度”的策略上,AI略微显得无益,它强化了陶哲轩对问题的错误直觉,而不是提出质疑。
陶哲轩一开始的直觉是错的,AI也没有发现问题,基本上只是附和同意他说的一切。
但是在从获得对问题理解的“大尺度”指标来看,AI又是有帮助的,尽管主要是间接意义上的:在AI的帮助下能够更快地研究并最终放弃一种现在认为不适合的方法。
陶哲轩将这次经历与他之前的实验进行了对比。
在之前的实验中,他给AI一个他对结果有很好直觉的任务。这种情况下AI更有创造力,提供了他不知道的信息,但引导AI朝着富有成效的方向前进也明显更加困难。
他认为,在自己专业领域之外的问题上与AI互动似乎确实有一些价值,但必须谨慎行事并保持对情况的认知。
这次经历还印证了陶哲轩之前提出的观点:必须在多个尺度上衡量一个工具的有效性。
此前他提出了四个不同的效率衡量尺度:形式化证明中的任何单行、任何单个引理、任何定理的完整证明,以及整本教科书。
许多当前的自动化工具可以在其中一个尺度上加速形式化,但反直觉的是,过度依赖这样的工具可能最终会降低在其他尺度上形式化的能力。
他认为最优的自动化水平实际上严格介于0%和100%之间。
在每个尺度上都有足够的自动化来减少繁琐的重复工作,但在每个尺度上仍然有足够的”人在回路中“来审查和修复局部问题,以便让人类保持对所有尺度上任务结构的感知。
如果过度地在单一尺度上对AI进行基准测试,最终可能会对长期目标产生不利影响。
陶哲轩与ChatGPT合作史
而陶哲轩对AI辅助数学工作的可能性探索还要追溯到三年前——ChatGPT刚刚发布的时候。
陶哲轩在其诞生伊始就敏锐地察觉到它的作用,并就黎曼假设进行试探性询问,但得出的结果却让他大失所望:
ChatGPT给出了看似合理且相关的回答,但仔细检查后却没有任何实际的深度内容。
此时的ChatGPT还不能完全理解数学问题的本质,只是在将一些低质量内容进行包装掩盖,这意味着常规的表面检测方法不再准确,需要对核心内容进行人工筛查,例如逐行地阅读文本。
所以早期的陶哲轩对AI工具抱有怀疑审视的态度,认为AI在数学中的作用,是为答案提供近似值,然后人类数学家再通过传统方法进行逐步细化。
转机出现在GPT-4,陶哲轩尝试使用GPT-4协助处理统计数据,即把原始数据输入电子表格,并查找对应函数、计算所需内容。
短短几分钟,GPT-4就完成了人类一天的工作,期间只有非常少的部分需要校验,这也让陶哲轩开始期待将AI集成到软件工具中,尤其是处理90%以上的LaTeX编译问题。
我可以明确地说,今天是GPT4为我节省了大量繁琐工作的第一天。
随后,他开始使用GPT-4处理一些自己熟悉领域的数学问题,比如下面这个问题:证明递归式(定义R)能够推导出a(n+1)。
GPT4从合作者的角度提出了八种不同方法,其中生成函数法引起了陶哲轩的注意,并随即沿着该解决路径,利用人工计算最终解决了这个问题。而最初陶哲轩想使用的是渐近分析方法,但事实证明AI可以更快地协助找到正确方案。
与此同时,他开始让ChatGPT编写Python来计算序列长度,虽然与预期的目标序列存在差异,只考虑到了连续整数的子序列而非任意子序列,但已经足够接近,而且其中在计算totient函数时还使用了非常独到的方案。
但代码本身有时也不够简洁、效率不高,或者逻辑不够严密,还是需要人工校正与重写。
他还尝试使用Copilot书写数学论文,不过在攥写证明大纲时,AI陷入了长篇叙述有关随机分析数论的废话,只有在编写非常短或重复的文本上有效。
所以此时的AI在陶哲轩看来,AI写数学论文仍然是有趣多过于有用。
在GPT-o1发布后,陶哲轩同样第一时间测试了其数学能力,显然相比于前代,GPT-o1的幻觉问题得到解决,在形式化任务中也作用显著,但在复杂分析问题上仍然令人失望,没有产生关键的概念思想。
陶哲轩将这一代模型定义为平庸但并非完全无能的数学“研究生”,而此前的模型则更接近为无能的“研究生”水平,不过他也相信再迭代一两次,加上与其他工具的集成,AI将在研究级别的任务中大有所为。
而今年七月份,OpenAI斩获IMO金牌一事让AI的数学能力再次引起热议,陶哲轩也对此做出了长文回应,认为缺乏统一的评测标准。
但同时他也开始让ChatGPT处理一些更为复杂的数学问题,比如在判断该集合是否是HA的子集时,陶哲轩通过理论分析已经确定该问题的答案是否定的,但仍需要一些数值参数来验证部分不等式。
起初,直接要求AI提供一个Python代码的反例,但由于初始参数问题始终失败,随后陶哲轩调整策略转而与AI逐步对话,使其执行启发式计算并找到可行的参数选择,通过单独验证生成的参数,最终解决了该问题。
陶哲轩总结认为,在数值搜索这类任务上,AI工具显然可以节省大量时间,如果没有AI,甚至他可能都不会考虑这种解决方法,而是寻求理论渐进分析。
而对于如何减少AI在数学问题中的幻觉或废话问题,陶哲轩也显然有了自己的一套心得,那就是在计算任务的每一步都做到详细解释,每一次和AI的对话都先确认再执行下一步,在对话结束后再使用Python进行外部验证,得到输出。
正如他一直所说的那样,AI正在重塑人类科学范式,其最合理的角色是成为数学家的“副驾驶”或助理,而不是取代人类在创造性、直觉性、策略性上的工作。
在AI的协助下,数学将在未来拥有更多的实验,而不仅仅是理论。
参考链接:
[1]https://chatgpt.com/share/68e85cba-7228-800e-8804-a0f41aa64e14
[3]https://terrytao.wordpress.com/mastodon-posts/
责任编辑:hnmd003
相关阅读
阅读排行
资讯播报
- 美股三大指数小幅高开
- 晶科储能向罗马尼亚Zorline项目...
- 0:4!惨遭王楚钦横扫,小勒布伦...
- 快看点丨金秀:秋日果香藏不住 ...
- 观速讯丨美团:味蕾游、赛事游、...
- 湖南鑫固科技有限公司成立 注册...
- 三部门:调整2026—2027年减免车...
- 资讯:人人享有心理服务,无锡文...
- 生意社:10月10日山东地区醋酸行...
- 热讯:百年光影 对话故宫今昔
- 莒南县板泉镇:晴日抢收秋粮忙 ...
- 当前关注:雷尔伟主力资金持续净...
- 焦点报道:10月9日动力煤CCTD 指...
- 快资讯:容大感光(300576.SZ):...
- 新华社权威速览·非凡“十四五”...
- 大行评级丨Cantor Fitzgerald:...
- 通讯!新华走笔丨“隔空投喂”的...
- 8月日本硅铁(>55%)进口总量26609.62吨
- 蓝海华腾:电动飞行器电机控制器...
- 2026春夏上海时装周开幕
- 头条焦点:生意社:10月10日泰国...
- 故宫博物院建院100周年丨百年守...
- 2025年床垫上市公司龙头股名单出...
- 信能低碳于10月10日上午起复牌
- 企查查显示虞书欣告黑侵权将开庭...
- 新版《食品召回管理办法》征求意...
- 铁轨上的岁月长歌(杨伟杰)|今...
- 控制权拟变更!中环环保今日复牌
- 新消息丨央视点赞太原市清徐服务...
- 每日看点!如何通过银行的服务实...
- 焦点快报!银行的顾客忠诚度如何...
- 瑞华泰:上市公司的股价波动受多...
- 文化中国行丨赏桂花、吃月饼……...
- 南京二桥、沪苏通大桥、苏通大桥...
- 出行注意!南宁迎来返程高峰期-...
- 重庆金弹子科技取得汽车大灯热熔...
- 热议:中国银行邢台沙河健康街支...
- 每日热闻!国庆中秋假期国网福州...
- 天天快报!印度央行行长:资产代...
- 每日热门:生意社:10月9日抚顺...
- 国庆假期体验“寻味之旅”
- 2-巯基丙酸商品报价动态(2025-10-08)
- 闻泰科技因存在尚未披露的重要信...
- 如何通过银行的市场研究报告进行...
- 半导体设备公司AEHR积压订单达15...
- 酷派集团出售合共11.45万股CLSK...
- 科学养护脑健康:神经酸茶树花 ...
- 国庆美食指南来啦!《这里很好吃...
- 新易盛:股东高光荣拟转让1.15%股份
- 热头条丨贵州罗甸县携“自然珍宝...
- 今日要闻!心玮医疗-B(06609)9月3...
- 每日热文:因劳动争议,钱龙起诉...
- 中国铁钛:拟与浙江中巷建工集团...
- 恒瑞医药(600276.SH):药品上市...
- 生意社:9月30日上海地区钴粉报...
- 洛阳市栾川县白土镇八一希望小学...
- 现货金银快速下跌 现货黄金向下...
- 一群“数贸新生代”即将从义乌搅...
- 当前聚焦:瑞丽市椽黎珠宝店(个...
- 南京客运南站目前限时30分钟进站...
- 央行:10月9日将开展11000亿元买...
- 雪人集团:公司已成功中标抚顺石...
- 生意社:9月30日华北地区纯碱行...
- 大行评级丨大摩:微创医疗重组心...
- 爱玛科技:全资子公司广东车业产...
- 焦点消息!英国家庭谨慎应对经济...
- 每日观察!工信部:前8个月软件业...
- 协昌科技:公司暂无机器人相关业...
- 上证综指9月30日涨0.52%_每日动态
- 热点评!广东省清远市发展和改革...
- 最新消息:669只股短线走稳 站...
- 世名科技股东户数下降1.46%,户...
- 进出口银行融资支持的布基纳法索...
- 繁星 | 莲湘花鼓
- 稻谷弯腰鱼儿跃
- 中秋去哪玩?贵阳孔学堂游园攻略...
- 波司登新设智能制造公司,含物联...
- 观焦点:港股吉利汽车午后涨超4%
- 焦点短讯!四川一初中10名男生无...
- 快资讯丨江西余干:童心绘祖国 ...
- 今日讯!<半日沽空>半日沽空金额...
- 中微公司参与出资 智微资本首期...
- 沪深京三市成交额超1.5万亿元,...
- 国家金融监督管理总局淮北监管分...
- 每日速读!白酒的香型分类对市场...
- 短讯!腾讯入股碳生万物,后者聚...
- 7x24小时全球实时财经新闻直播 ...
- 生意社:9月30日长治市场焦炭价...
- 新动态:国内最大人形机器人训练...
- 盯盘:13股突破半年线_要闻速递
- 网传山子高科接盘哪吒汽车 计划...
- 新华指数|9月29日山东港口原油现...
- 广东宏大:中标露天煤矿无人驾驶...
- 新浪基金白话解读《推动公募基金...
- 宣城冠晟取得汽车金属件凹槽冲压...
- 主动权益一年“翻倍基”近250只...
- 东风汽车取得车载互联路面智能预...
- 牛市里“挨揍”?林园19只产品全...
- 聊城智汇 链接全球丨锚定国际市...
- 苹果iOS26.1或推新Siri功能|每日观点